Python机器学习算法库scikit-learn学习之决策树实现方法详解

更新时间：2019年07月04日 11:37:02 作者：Yeoman92

这篇文章主要介绍了Python机器学习算法库scikit-learn学习之决策树实现方法,结合实例形式分析了决策树算法的原理及使用sklearn库实现决策树的相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python机器学习算法库scikit-learn学习之决策树实现方法。分享给大家供大家参考，具体如下：

决策树

决策树(DTs)是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过从数据特性中推导出简单的决策规则来预测目标变量的值。

例如，在下面的例子中，决策树通过一组if-then-else决策规则从数据中学习到近似正弦曲线的情况。树越深，决策规则越复杂，模型也越合适。

这里写图片描述

决策树的一些优势是:

便于说明和理解，树可以可视化表达；
需要很少的数据准备。其他技术通常需要数据标准化，需要创建虚拟变量，并删除空白值。
使用树的成本是用于对树进行训练的数据点的对数。
能够处理数值和分类数据。其他技术通常是专门分析只有一种变量的数据集。
能够处理多输出问题。
使用白盒模型。如果一个给定的情况在模型中可以观察到，那么这个条件的解释很容易用布尔逻辑来解释。相比之下，在黑盒模型中(例如:在人工神经网络中，结果可能更难解释。
可以使用统计测试验证模型。这样就可以解释模型的可靠性。
即使它的假设在某种程度上违反了生成数据的真实模型，也会表现得很好。

决策树的缺点包括:

决策树学习可能会生成过于复杂的树，不能代表普遍的规则，这就称为过拟合。修剪(目前不支持的)机制，设置叶片节点所需的最小样本数目或设置树的最大深度是避免此问题的必要条件。
决策树可能不稳定，因为数据中的小变化可能导致生成完全不同的树。这个问题通过在一个集合中使用多个决策树来减轻。
实际的决策树学习算法是基于启发式算法的，例如在每个节点上进行局部最优决策的贪婪算法。这种算法不能保证返回全局最优决策树。通过在集合学习者中训练多个树，可以减少这种情况，在这里，特征和样本是随机抽取的。
有些概念很难学习，因为决策树无法很容易地表达它们，例如XOR、奇偶性或多路复用问题。

分类

决策树分类器（DecisionTreeClassifier）是一个能够在数据集上执行多类分类的类。

与其他分类器一样，决策树分类器以输入两个数组作为输入:数组X，稀疏或密集，[n_samples,n_features]保存训练样本，以及数组Y的整数值，[n_samples]，保存训练样本的类标签:

>>> from sklearn import tree
>>> X = [[0, 0], [1, 1]]
>>> Y = [0, 1]
>>> clf = tree.DecisionTreeClassifier()
>>> clf = clf.fit(X, Y)

模型可以用来预测样本的类别:

>>> clf.predict([[2., 2.]])
array([1])

或者，可以预测每个类的概率，在叶片上同一类的训练样本的分数

>>> clf.predict_proba([[2., 2.]])
array([[ 0., 1.]])

DecisionTreeClassifier可以同时进行二进制(其中标签为[- 1,1])分类和多类(标签为[0]，……,k - 1])分类。

使用虹膜数据集，我们可以构建如下的树:

>>> from sklearn.datasets import load_iris
>>> from sklearn import tree
>>> iris = load_iris()
>>> clf = tree.DecisionTreeClassifier()
>>> clf = clf.fit(iris.data, iris.target)

训练之后，我们可以使用export_graphviz 将树导出为Graphviz格式。下面是一个在整个iris（虹膜）数据集上输出的树示例:

>>> with open("iris.dot", 'w') as f:
...   f = tree.export_graphviz(clf, out_file=f)

然后我们可以使用Graphviz的dot工具来创建一个PDF文件(或者任何其他受支持的文件类型):dot -Tpdf iris.dot -o iris.pdf

>>> import os
>>> os.unlink('iris.dot')

或者，如果我们安装了Python模块pydotplus，我们可以在Python中直接生成PDF文件(或任何其他受支持的文件类型):

>>> import pydotplus
>>> dot_data = tree.export_graphviz(clf, out_file=None)
>>> graph = pydotplus.graph_from_dot_data(dot_data)
>>> graph.write_pdf("iris.pdf")

export_graphviz exporter 还支持各种各样的选项，包括根据它们的类(或用于回归的值)着色节点，如果需要的话，还可以使用显式变量和类名IPython还可以使用Image()函数来显示这些情节:

>>> from IPython.display import Image
>>> dot_data = tree.export_graphviz(clf, out_file=None,
             feature_names=iris.feature_names,
             class_names=iris.target_names,
             filled=True, rounded=True,
             special_characters=True)
>>> graph = pydotplus.graph_from_dot_data(dot_data)
>>> Image(graph.create_png())

这里写图片描述

模型可以用来预测样本的类别:

>>> clf.predict(iris.data[:1, :])
array([0])

或者，可以预测每个类的概率，这是同一类在叶子中的训练样本的分数:

>>> clf.predict_proba(iris.data[:1, :])
array([[ 1., 0., 0.]])

这里写图片描述

Examples:

Plot the decision surface of a decision tree on the iris dataset

回归

这里写图片描述

使用决策树类回归，决策树也可以应用于回归问题。

在分类设置中，fit方法将数组X和y作为参数，只有在这种情况下，y被期望有浮点值而不是整数值:

>>> from sklearn import tree
>>> X = [[0, 0], [2, 2]]
>>> y = [0.5, 2.5]
>>> clf = tree.DecisionTreeRegressor()
>>> clf = clf.fit(X, y)
>>> clf.predict([[1, 1]])
array([ 0.5])

Examples:

Decision Tree Regression

多输出问题

一个多输出问题是一个受监督的学习问题，有几个输出可以预测，即当Y是一个二维数组[n_samples,n_output]。

当输出之间没有相关性时，解决这类问题的一个非常简单的方法是建立n个独立的模型，即每一个输出，然后使用这些模型独立地预测每一个输出。

然而，因为可能与相同输入相关的输出值本身是相关的，通常更好的方法是构建一个能够同时预测所有n输出的单一模型。首先，它需要较低的培训时间，因为只构建了一个估计值。其次，结果估计量的泛化精度通常会增加。

对于决策树，这种策略可以很容易地用于支持多输出问题。这需要以下更改:

在叶子中存储n个输出值，而不是1;
使用分割标准来计算所有n输出的平均下降。

这个模块提供了支持多输出问题的方法，通过DecisionTreeClassifier 和DecisionTreeRegressor实现这个策略。

如果决策树符合大小(n_samples,n_output)的输出数组Y，那么得到的估计值将是:

预测输出的n_output值;
在predict_proba上输出类概率的n_output数组。

多输出决策树回归中显示了多输出树的回归。在这个例子中，输入X是一个单一的实际值，输出Y是X的正弦和余弦。

这里写图片描述

Examples:

决策树多输出回归

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python数据结构与算法教程》、《Python加密解密算法与技巧总结》、《Python编码操作技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

Pytorch损失函数torch.nn.NLLLoss()的使用
这篇文章主要介绍了Pytorch损失函数torch.nn.NLLLoss()的使用，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
在Python中将元组转换为列表的方法详解
这两种Python 数据类型看起来很相似,但在上下文中却有不同的用法,元组和列表之间的主要区别在于它们的可变性,仅当您需要修改元素时才会将元组转换为列表,本文现在我们将深入研究将元组转换为列表的不同方法,需要的朋友可以参考下
2023-09-09
Python深度学习之实现卷积神经网络
今天带大家学习如何使用Python实现卷积神经网络,这是个很难的知识点,文中有非常详细的介绍,对小伙伴们很有帮助,需要的朋友可以参考下
2021-06-06
Pytorch技巧:DataLoader的collate_fn参数使用详解
今天小编就为大家分享一篇Pytorch技巧:DataLoader的collate_fn参数使用详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
pycharm打开命令行或Terminal的方法
今天小编就为大家分享一篇pycharm打开命令行或Terminal的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
Python+Opencv实现图像模板匹配详解
模板匹配可以看作是对象检测的一种非常基本的形式。使用模板匹配，我们可以使用包含要检测对象的“模板”来检测输入图像中的对象。本文为大家介绍了图像模板匹配的实现方法，需要的可以参考一下
2022-09-09
Mac版Python3安装/升级的方式
这篇文章主要介绍了Mac版Python3安装/升级的方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-03-03
如何对Python编译PyInstaller打包生成的exe文件进行反编译生成pyc、py源代码文件
很多开发者没有发布源程序代码,而是将代码封装为exe可执行文件,这样不仅更有利于程序传播,下面这篇文章主要介绍了如何对Python编译PyInstaller打包生成的exe文件进行反编译生成pyc、py源代码文件的相关资料,需要的朋友可以参考下
2023-01-01
pycharm安装opencv-python报错的解决
本文主要介绍了pycharm安装opencv-python报错的解决，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-07-07
Python实现数据可视化看如何监控你的爬虫状态【推荐】
今天主要是来说一下怎么可视化来监控你的爬虫的状态。文中通过实例代码给大家分析了Python实现数据可视化看如何监控你的爬虫状态，感兴趣的朋友一起看看吧
2018-08-08