python基于ID3思想的决策树

 更新时间:2018年01月03日 10:34:52   作者:leeliyang  
这篇文章主要为大家详细介绍了python基于ID3思想的决策树,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

这是一个判断海洋生物数据是否是鱼类而构建的基于ID3思想的决策树,供大家参考,具体内容如下

# coding=utf-8
import operator
from math import log
import time


def createDataSet():
  dataSet = [[1, 1, 'yes'],
        [1, 1, 'yes'],
        [1, 0, 'no'],
        [0, 1, 'no'],
        [0, 1, 'no'],
        [0,0,'maybe']]
  labels = ['no surfaceing', 'flippers']
  return dataSet, labels


# 计算香农熵
def calcShannonEnt(dataSet):
  numEntries = len(dataSet)
  labelCounts = {}
  for feaVec in dataSet:
    currentLabel = feaVec[-1]
    if currentLabel not in labelCounts:
      labelCounts[currentLabel] = 0
    labelCounts[currentLabel] += 1
  shannonEnt = 0.0
  for key in labelCounts:
    prob = float(labelCounts[key]) / numEntries
    shannonEnt -= prob * log(prob, 2)
  return shannonEnt


def splitDataSet(dataSet, axis, value):
  retDataSet = []
  for featVec in dataSet:
    if featVec[axis] == value:
      reducedFeatVec = featVec[:axis]
      reducedFeatVec.extend(featVec[axis + 1:])
      retDataSet.append(reducedFeatVec)
  return retDataSet


def chooseBestFeatureToSplit(dataSet):
  numFeatures = len(dataSet[0]) - 1 # 因为数据集的最后一项是标签
  baseEntropy = calcShannonEnt(dataSet)
  bestInfoGain = 0.0
  bestFeature = -1
  for i in range(numFeatures):
    featList = [example[i] for example in dataSet]
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:
      subDataSet = splitDataSet(dataSet, i, value)
      prob = len(subDataSet) / float(len(dataSet))
      newEntropy += prob * calcShannonEnt(subDataSet)
    infoGain = baseEntropy - newEntropy
    if infoGain > bestInfoGain:
      bestInfoGain = infoGain
      bestFeature = i
  return bestFeature


# 因为我们递归构建决策树是根据属性的消耗进行计算的,所以可能会存在最后属性用完了,但是分类
# 还是没有算完,这时候就会采用多数表决的方式计算节点分类
def majorityCnt(classList):
  classCount = {}
  for vote in classList:
    if vote not in classCount.keys():
      classCount[vote] = 0
    classCount[vote] += 1
  return max(classCount)


def createTree(dataSet, labels):
  classList = [example[-1] for example in dataSet]
  if classList.count(classList[0]) == len(classList): # 类别相同则停止划分
    return classList[0]
  if len(dataSet[0]) == 1: # 所有特征已经用完
    return majorityCnt(classList)
  bestFeat = chooseBestFeatureToSplit(dataSet)
  bestFeatLabel = labels[bestFeat]
  myTree = {bestFeatLabel: {}}
  del (labels[bestFeat])
  featValues = [example[bestFeat] for example in dataSet]
  uniqueVals = set(featValues)
  for value in uniqueVals:
    subLabels = labels[:] # 为了不改变原始列表的内容复制了一下
    myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,
                                bestFeat, value), subLabels)
  return myTree


def main():
  data, label = createDataSet()
  t1 = time.clock()
  myTree = createTree(data, label)
  t2 = time.clock()
  print myTree
  print 'execute for ', t2 - t1


if __name__ == '__main__':
  main()

最后我们测试一下这个脚本即可,如果想把这个生成的决策树用图像画出来,也只是在需要在脚本里面定义一个plottree的函数即可。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python批量裁剪图片的思路详解

    Python批量裁剪图片的思路详解

    这篇文章主要介绍了Python批量裁剪图片的程序代码,是批量裁剪某一文件夹下的所有图片,并指定裁剪宽高,本文给大家分享实现思路,需要的朋友可以参考下
    2022-07-07
  • Python字典中的值求和两种方法

    Python字典中的值求和两种方法

    在Python中字典是一种无序的数据结构,它由一系列键和对应的值组成,有时候我们需要对字典中的键对应的值进行求和操作,这篇文章主要给大家介绍了关于Python字典中值求和两种方法的相关资料,需要的朋友可以参考下
    2023-11-11
  • Python NaN空值的处理示例详解

    Python NaN空值的处理示例详解

    这篇文章主要介绍了Python NaN空值的处理,通过本文的介绍,对Python去掉数组中的空值NaN有了更加深入的了解,在实际的数据分析工作中,我们可以根据具体的情况选择合,需要的朋友可以参考下
    2023-11-11
  • python公司内项目对接钉钉审批流程的实现

    python公司内项目对接钉钉审批流程的实现

    最近把组内的一个项目对接钉钉审批接口,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08
  • 浅谈Python使用pickle模块序列化数据优化代码的方法

    浅谈Python使用pickle模块序列化数据优化代码的方法

    这篇文章主要介绍了浅谈Python使用pickle模块序列化数据优化代码的方法,pickle模块可以对多种Python对象进行序列化和反序列化,序列化称为pickling,反序列化称为unpickling,需要的朋友可以参考下
    2023-07-07
  • Pycharm学习教程(4) Python解释器的相关配置

    Pycharm学习教程(4) Python解释器的相关配置

    这篇文章主要为大家详细介绍了最全的Pycharm学习教程第四篇,Python解释器配置,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-05-05
  • 详解Python安装tesserocr遇到的各种问题及解决办法

    详解Python安装tesserocr遇到的各种问题及解决办法

    这篇文章主要介绍了详解Python安装tesserocr遇到的各种问题及解决办法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • Python3.7 读取音频根据文件名生成脚本的代码

    Python3.7 读取音频根据文件名生成脚本的代码

    这篇文章主要介绍了Python3.7 读取音频根据文件名生成字幕脚本的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • python日志记录模块实例及改进

    python日志记录模块实例及改进

    许多应用程序中都会有日志模块,用于记录系统在运行过程中的一些关键信息,以便于对系统的运行状况进行跟踪。在python中,我们不需要第三方的日志组件,因为它已经为我们提供了简单易用、且功能强大的日志模块:logging。
    2017-02-02
  • Python面向对象的内置方法梳理讲解

    Python面向对象的内置方法梳理讲解

    面向对象编程是一种编程方式,此编程方式的落地需要使用“类”和 “对象”来实现,所以,面向对象编程其实就是对 “类”和“对象” 的使用,今天给大家介绍下python 面向对象开发及基本特征,感兴趣的朋友一起看看吧
    2022-10-10

最新评论