决策树的python实现方法

更新时间：2014年11月18日 14:47:13 投稿：shichen2014

这篇文章主要介绍了决策树的python实现方法,详细分析了决策树的优缺点及算法思想并以完整实例形式讲述了Python实现决策树的方法,具有一定的借鉴价值,需要的朋友可以参考下

本文实例讲述了决策树的python实现方法。分享给大家供大家参考。具体实现方法如下：

决策树算法优缺点：

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据

缺点：可能会产生过度匹配的问题

适用数据类型：数值型和标称型

算法思想：

1.决策树构造的整体思想：

决策树说白了就好像是if-else结构一样，它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树，但是呢这里的if-else必然不会是让我们认为去设置的，我们要做的是提供一种方法，计算机可以根据这种方法得到我们所需要的决策树。这个方法的重点就在于如何从这么多的特征中选择出有价值的，并且按照最好的顺序由根到叶选择。完成了这个我们也就可以递归构造一个决策树了

2.信息增益

划分数据集的最大原则是将无序的数据变得更加有序。既然这又牵涉到信息的有序无序问题，自然要想到想弄的信息熵了。这里我们计算用的也是信息熵（另一种方法是基尼不纯度）。公式如下：

数据需要满足的要求：

① 数据必须是由列表元素组成的列表，而且所有的列白哦元素都要具有相同的数据长度
② 数据的最后一列或者每个实例的最后一个元素应是当前实例的类别标签

函数：

calcShannonEnt(dataSet)
计算数据集的香农熵，分两步，第一步计算频率，第二部根据公式计算香农熵

splitDataSet(dataSet, aixs, value)
划分数据集，将满足X[aixs]==value的值都划分到一起，返回一个划分好的集合（不包括用来划分的aixs属性，因为不需要）

chooseBestFeature(dataSet)
选择最好的属性进行划分，思路很简单就是对每个属性都划分下，看哪个好。这里使用到了一个set来选取列表中唯一的元素，这是一中很快的方法

majorityCnt(classList)
因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类还是没有算完，这时候就会采用多数表决的方式计算节点分类

createTree(dataSet, labels)
基于递归构建决策树。这里的label更多是对于分类特征的名字，为了更好看和后面的理解。

复制代码代码如下:

#coding=utf-8
import operator
from math import log
import time

def createDataSet():
    dataSet=[[1,1,'yes'],
            [1,1,'yes'],
            [1,0,'no'],
            [0,1,'no'],
            [0,1,'no']]
    labels = ['no surfaceing','flippers']
    return dataSet, labels

#计算香农熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for feaVec in dataSet:
        currentLabel = feaVec[-1]
        if currentLabel not in labelCounts:
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1#因为数据集的最后一项是标签
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy -newEntropy
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

#因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类
#还是没有算完，这时候就会采用多数表决的方式计算节点分类
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    return max(classCount)

def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) ==len(classList):#类别相同则停止划分
        return classList[0]
    if len(dataSet[0]) == 1:#所有特征已经用完
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]#为了不改变原始列表的内容复制了一下
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,
                                        bestFeat, value),subLabels)
    return myTree

def main():
    data,label = createDataSet()
    t1 = time.clock()
    myTree = createTree(data,label)
    t2 = time.clock()
    print myTree
    print 'execute for ',t2-t1
if __name__=='__main__':
    main()

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

利用python实现词频统计分析的代码示例
词频统计是指在文本或语音数据中，统计每个单词或符号出现的次数，以便对文本或语音数据进，这篇文章将详细介绍分词后如何进行词频统计分析
2023-06-06
利用Python开发微信支付的注意事项
如今支付的引入是很多互联网产品都需要的。为了让用户用着更方便快捷，集成像支付宝、微信支付这样的第三方支付也就成了常有的事。今天跟着小编就来看看微信支付开发中几个值得注意的地方，涉及代码之处均用 Python 编写。
2016-08-08
浅谈Python由__dict__和dir()引发的一些思考
这篇文章主要介绍了浅谈Python由__dict__和dir()引发的一些思考，具有一定参考价值，需要的朋友可以了解下。
2017-10-10
对numpy数据写入文件的方法讲解
今天小编就为大家分享一篇对numpy数据写入文件的方法讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
详解用python写一个抽奖程序
这篇文章主要介绍了用python写一个抽奖程序，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-05-05
pandas删除指定行详解
这篇文章主要介绍了pandas删除指定行的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
Python 正则表达式实现计算器功能
本篇文章主要介绍了Python 正则表达式实现计算器功能的示例。具有很好的参考价值。下面跟着小编一起来看下吧
2017-04-04
PyQt中使用QTabWidget实现多页面布局的方法
在使用PyQt编写桌面应用程序的过程中,要实现多页面布局方案,可以使用QTabWidget控件来实现,本案例提供了完整的标签页管理功能,同时保持了响应式设计的核心原则,能够很好地适应不同屏幕尺寸和内容变化,感兴趣的朋友一起看看吧
2025-04-04
Python和C语言利用栈分别实现进制转换
这篇文章主要为大家详细介绍了Python和C语言如何利用栈的数据结构分别实现将十进制数转换成二进制数，文中的示例代码讲解详细，需要的可以参考一下
2022-07-07
Python中判断对象是否为空的方法
在Python开发中,判断对象是否为“空”是高频操作,但看似简单的需求却暗藏玄机,从None到空容器,从零值到自定义对象的“假值”状态,不同场景下的“空”需要精准区分,本文将系统梳理Python中“空”的判定逻辑,揭示常见误区,并提供实用解决方案,需要的朋友可以参考下
2025-04-04

决策树的python实现方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具