Python3.0 实现决策树算法的流程

更新时间：2019年08月08日 09:45:32 作者：wangxiaoming

这篇文章主要介绍了Python3.0 实现决策树算法的流程，本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下

决策树的一般流程

检测数据集中的每个子项是否属于同一个分类

if so return 类标签
Else

寻找划分数据集的最好特征

划分数据集

创建分支节点

from math import log
import operator
#生成样本数据集
def createDataSet():
  dataSet = [[1,1,'yes'],
        [1,1,'yes'],
        [1,0,'no'],
        [0,1,'no'],
        [0,1,'no']]
  labels = ['no surfacing','flipper']
  return dataSet,labels
# 计算香农熵 香农 大神必须要膜拜啊，信息界的根目录人物啊
# no surfacing 指的是 不浮出水面能否生存 1 标识 是 0 指的是否
# flipper 指的是是否有脚
# yes no指的是否是鱼类
def calcShannonEnt(dataSet):
  numEntries = len(dataSet) # 用上面的createDataSet dataSet 这个值就是5
  #定义标签字典
  labelCounts = {}
  # 为所有可能的分类创建字典
  for featVec in dataSet:
    currentLabel = featVec[-1] #这个-1指的是去取最后一个维度 对应数据dataSet 这里取的是yes和no
    if currentLabel not in labelCounts.keys():
      # 如果当前分类标签不在 标签字典中
      labelCounts[currentLabel] = 0
    # 其他情况 分类标签分类加1
    labelCounts[currentLabel] += 1
  #定义香农熵 以2为底数求对数
  shannonEnt = 0.0
  for key in labelCounts:
    #计算 yes 或者No 出现的概率
    pro = float(labelCounts[key])/numEntries
    # 计算香农熵
    shannonEnt -= pro*log(pro,2)
  return shannonEnt
#dataSet是待划分的数据集， 划分数据集的特征 axis 特征的返回值value
#最后是创建了一个新的列表对象
def splitDataSet(dataSet, axis , value):
  # 创建新list对象
  retDataSet = []
  for featVec in dataSet:
    if featVec[axis] == value:
      reducedFeatVec = featVec[:axis]
      reducedFeatVec.extend(featVec[axis+1:])
      retDataSet.append(reducedFeatVec)
  return retDataSet
# 选择最好的特征值进行数据集划分
def chooseBestFeatureToSplit(dataSet):
  # len(dataSet[0]）是计算这一行有多少列，即有多少个特征值
  numFeatures = len(dataSet[0])-1 # -1 是最后一个特征值就不要记录在内了，算baseEntrop的时候已经算了最后一个特征值yes no
  baseEntropy = calcShannonEnt(dataSet)
  bestInfoGain = 0.0
  bestFeature = -1
  for i in range(numFeatures):
    #创建唯一的分类标签列表 也就是说提取dataSet每一行第i个值 就提取dat
    featList = [example[i] for example in dataSet]
    # 取出有几种特征值
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:
      #创建特征值的子数据集
      subDataSet = splitDataSet(dataSet,i, value)
      #计算该特征值数据对总数在数据对总数出现的概率
      pro = len(subDataSet)/float(len(dataSet))
      #计算分割出来的子集香农熵
      newEntropy += pro*calcShannonEnt(subDataSet)
    #计算信息增益 得到最好的特征值 这个理论是这样的g(D,A) = H(D)-H(D/A）
    infoGain = baseEntropy-newEntropy
    #取出最大的信息增益，此时特征值最大
    if(infoGain >bestInfoGain):
      bestInfoGain = infoGain
      bestFeature = i
  return bestFeature
'''
#构建决策树是根据特征值的消耗来计算的，如果后面的特征值已经全部用完了
但是还没有分出结果，这个时候就需要使用多数表决方式计算节点分类
最后返回最大的分类
'''
def majorityCnt(classList):
  # 分类的字典
  classCount = {}
  for vote in range(classList):
    #如果不在 分类字典中
    if vote not in classCount.keys(): classCount[vote] = 0
    classCount[vote] += 1
    # 根据出现的次数大到小排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
  return sortedClassCount[0][0]
#创建决策树
def createTree(dataSet, labels):
  # 获取数据样本每组最后一组的特征值 这里是yes,no
  classList = [example[-1] for example in dataSet]
  # 如果说这个classList 全部都是 yes 或者全部是no 那肯定子返回yes 或者no
  if(classList.count(classList[0]) == len(classList)):
    return classList[0]
  #如果遍历完所有的特征返回出现次数最多的
  #是用消耗特征值的方式进行构造决策树的，每次会消掉一个特征值
  if len(dataSet[0]) == 1:
    return majorityCnt(classList)
  #选择最好的特征值
  bestFeat = chooseBestFeatureToSplit(dataSet)
  bestFeatLabel = labels[bestFeat]
  myTree = {bestFeatLabel:{}}
  # 删除labels中的一特征值
  del(labels[bestFeat])
  #找到特征值那一列
  featValues = [example[bestFeat] for example in dataSet]
  uniqueVals = set(featValues)
  for value in uniqueVals:
    # labels列表的赋值
    subLabels = labels[:]
    myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
  return myTree
dataSet,lables = createDataSet()
shannonEnt= calcShannonEnt(dataSet)
my = createTree(dataSet,lables)
print(my)

总结

以上所述是小编给大家介绍的Python3.0 实现决策树算法的流程,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

您可能感兴趣的文章:

python实现字典(dict)和字符串(string)的相互转换方法
这篇文章主要介绍了python实现字典(dict)和字符串(string)的相互转换方法,涉及Python字典dict的遍历与字符串转换相关操作技巧,需要的朋友可以参考下
2017-03-03
Python中的列表及其操作方法
这篇文章主要介绍了Python中的列表及其操作方法，涉及到的方法包括对列表元素进行修改、添加、删除、排序以及求列表长度等，此外还介绍了列表的遍历、数值列表、切片和元组的一些操作,下文详细介绍需要的小伙伴可以参考一下
2022-03-03
python3中dict.keys().sort()用不了的解决方法
本文主要介绍了python3中dict.keys().sort()用不了的解决方法，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-12-12
Python+OpenCV图像处理之直方图统计
直方图就是对图像的另外一种解释，它描述了整幅图像的灰度分布。通过直方图我们可以对图像的亮度、灰度分布、对比度等有了一个直观的认识。本文将为大家详细介绍一下如何通过OpenCV实现直方图统计，感兴趣的可以了解一下
2021-12-12
python转换pkl模型文件为txt文件问题
这篇文章主要介绍了python转换pkl模型文件为txt文件问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-06-06
Python 处理数据库事务的操作方法
在Python中,处理数据库事务通常涉及使用特定的数据库驱动如sqlite3、PyMySQL和psycopg2等,这些库提供事务管理功能,允许开发者手动控制事务的提交和回滚,本文给大家介绍Python如何处理数据库事务,感兴趣的朋友一起看看吧
2024-10-10
Pygame Time时间控制的具体使用详解
pygame.time 时间控制模块，是 Pygame 中使用频率较高的模块，其主要功能是管理时间和游戏帧数率，本文就来详细的介绍一下，感兴趣的可以了解一下
2021-11-11
python之ImportError:模块引入异常问题
这篇文章主要介绍了python之ImportError:模块引入异常问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-06-06
趣味Python实战练习之自动更换桌面壁纸脚本附源码
读万卷书不如行万里路，学的扎不扎实要通过实战才能看出来，本篇文章手把手带你编写一个自动更换桌面壁纸的脚本，代码简洁而且短，相信你一定看得懂,大家可以在过程中查缺补漏，看看自己掌握程度怎么样
2021-10-10
python 虚拟环境的创建与使用方法
本文先介绍虚拟环境的基础知识以及使用方法,然后再深入介绍虚拟环境背后的工作原理,需要的朋友可以参考下
2021-06-06

Python3.0 实现决策树算法的流程

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具