python决策树之C4.5算法详解

更新时间：2017年12月20日 14:15:08 作者：zhihua_oba

这篇文章主要为大家详细介绍了python决策树之C4.5算法的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

本文为大家分享了决策树之C4.5算法，供大家参考，具体内容如下

1. C4.5算法简介

C4.5算法是用于生成决策树的一种经典算法，是ID3算法的一种延伸和优化。C4.5算法对ID3算法主要做了一下几点改进：

（1）通过信息增益率选择分裂属性，克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足；
（2）能够处理离散型和连续型的属性类型，即将连续型的属性进行离散化处理；
（3）构造决策树之后进行剪枝操作；
（4）能够处理具有缺失属性值的训练数据。

2. 分裂属性的选择——信息增益率

分裂属性选择的评判标准是决策树算法之间的根本区别。区别于ID3算法通过信息增益选择分裂属性，C4.5算法通过信息增益率选择分裂属性。

属性A的“分裂信息”(split information)：

其中，训练数据集S通过属性A的属性值划分为m个子数据集，|Sj|表示第j个子数据集中样本数量，|S|表示划分之前数据集中样本总数量。

通过属性A分裂之后样本集的信息增益：

信息增益的详细计算方法，可以参考博客“决策树之ID3算法及其Python实现”中信息增益的计算。

通过属性A分裂之后样本集的信息增益率：

通过C4.5算法构造决策树时，信息增益率最大的属性即为当前节点的分裂属性，随着递归计算，被计算的属性的信息增益率会变得越来越小，到后期则选择相对比较大的信息增益率的属性作为分裂属性。

3. 连续型属性的离散化处理

当属性类型为离散型，无须对数据进行离散化处理；当属性类型为连续型，则需要对数据进行离散化处理。C4.5算法针对连续属性的离散化处理，核心思想：将属性A的N个属性值按照升序排列；通过二分法将属性A的所有属性值分成两部分（共有N-1种划分方法，二分的阈值为相邻两个属性值的中间值）；计算每种划分方法对应的信息增益，选取信息增益最大的划分方法的阈值作为属性A二分的阈值。详细流程如下：
（1）将节点Node上的所有数据样本按照连续型属性A的具体取值，由小到大进行排列，得到属性A的属性值取值序列(xA1,...,xAN)。
（2）在序列(xA1,...,xAN)中共有N-1种二分方法，即共产生N-1个分隔阈值。对于第i种二分方法，其二分阈值θi=xAi+xAi+12。它将该节点上的数据集划分为2个子数据集(xA1,...,xAi)(xAi+1,...,xAN)。计算此种二分结果下的信息增益。
（3）分别计算N-1种二分结果下的信息增益，选取信息增益最大的二分结果作为对属性A的划分结果，并记录此时的二分阈值。

4. 剪枝——PEP(Pessimistic Error Pruning)剪枝法

由于决策树的建立完全是依赖于训练样本，因此该决策树对训练样本能够产生完美的拟合效果。但这样的决策树对于测试样本来说过于庞大而复杂，可能产生较高的分类错误率。这种现象就称为过拟合。因此需要将复杂的决策树进行简化，即去掉一些节点解决过拟合问题，这个过程称为剪枝。
剪枝方法分为预剪枝和后剪枝两大类。预剪枝是在构建决策树的过程中，提前终止决策树的生长，从而避免过多的节点产生。预剪枝方法虽然简单但实用性不强，因为很难精确的判断何时终止树的生长。后剪枝是在决策树构建完成之后，对那些置信度不达标的节点子树用叶子结点代替，该叶子结点的类标号用该节点子树中频率最高的类标记。后剪枝方法又分为两种，一类是把训练数据集分成树的生长集和剪枝集；另一类算法则是使用同一数据集进行决策树生长和剪枝。常见的后剪枝方法有CCP(Cost Complexity Pruning)、REP(Reduced Error Pruning)、PEP(Pessimistic Error Pruning)、MEP(Minimum Error Pruning)。
C4.5算法采用PEP(Pessimistic Error Pruning)剪枝法。PEP剪枝法由Quinlan提出，是一种自上而下的剪枝法，根据剪枝前后的错误率来判定是否进行子树的修剪，因此不需要单独的剪枝数据集。接下来详细介绍PEP(Pessimistic Error Pruning)剪枝法。
对于一个叶子节点，它覆盖了n个样本，其中有e个错误，那么该叶子节点的错误率为(e+0.5)/n，其中0.5为惩罚因子（惩罚因子一般取值为0.5）。
对于一棵子树，它有L个叶子节点，那么该子树的误判率为：

其中，ei表示子树第i个叶子节点错误分类的样本数量，ni表示表示子树第i个叶子节点中样本的总数量。

假设一棵子树错误分类一个样本取值为1，正确分类一个样本取值为0，那么子树的误判次数可以认为是一个伯努利分布，因此可以得到该子树误判次数的均值和标准差：

把子树替换成叶子节点后，该叶子节点的误判率为：

其中，e′=∑Li=1ei，n′=∑Li=1ni。

同时，该叶子结点的误判次数也是一个伯努利分布，因此该叶子节点误判次数的均值为：

这里写图片描述

剪枝的条件为：

这里写图片描述

满足剪枝条件时，则将所得叶子节点替换该子树，即为剪枝操作。

5. 缺失属性值的处理

训练样本集中有可能会出现一些样本缺失了一些属性值，待分类样本中也会出现这样的情况。当遇到这样的样本集时该如何处理呢？含有缺失属性的样本集会一般会导致三个问题：

（１）在构建决策树时，每一个分裂属性的选取是由训练样本集中所有属性的信息増益率来决定的。而在此阶段，如果训练样本集中有些样本缺少一部分属性，此时该如何计算该属性的信息増益率；

（２）当已经选择某属性作为分裂属性时，样本集应该根据该属性的值来进行分支，但对于那些该属性的值为未知的样本，应该将它分支到哪一棵子树上；

（３）在决策树已经构建完成后，如果待分类样本中有些属性值缺失，则该样本的分类过程如何进行。

针对上述因缺失属性值引起的三个问题，C4.5算法有多种解决方案。
面对问题一，在计算各属性的信息増益率时，若某些样本的属性值未知，那么可以这样处理：计算某属性的信息増益率时忽略掉缺失了此属性的样本；或者通过此属性的样本中出现频率最高的属性值，賦值给缺失了此属性的样本。
面对问题二，假设属性Ａ已被选择作为决策树中的一个分支节点，在对样本集进行分支的时候，对于那些属性Ａ的值未知的样本，可以送样处理：不处理那些属性Ａ未知的样本，即简单的忽略它们；或者根据属性Ａ的其他样本的取值，来对未知样本进行赋值；或者为缺失属性Ａ的样本单独创建一个分支，不过这种方式得到的决策树模型结点数显然要増加，使模型更加复杂了。
面对问题三，根据己经生成的决策树模型，对一个待分类的样本进行分类时，若此样本的属性Ａ的值未知，可以这样处理：待分类样本在到达属性Ａ的分支结点时即可结束分类过程，此样本所属类别为属性Ａ的子树中概率最大的类别；或者把待分类样本的属性Ａ赋予一个最常见的值，然后继续分类过程。

6. C4.5算法流程

这里写图片描述

7. C4.5算法优缺点分析

优点：

缺点：
（1）算法的计算效率较低，特别是针对含有连续属性值的训练样本时表现的尤为突出。
（2）算法在选择分裂属性时没有考虑到条件属性间的相关性，只计算数据集中每一个条件属性与决策属性之间的期望信息，有可能影响到属性选择的正确性。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python树的平衡检测算法实现
树的平衡检测是指判断一棵树是否为平衡二叉树，即每个节点的左右子树高度差不超过1，本文主要介绍了Python树的平衡检测算法实现，感兴趣的可以了解一下
2023-11-11
Python基础之数据类型知识汇总
今天带大家复习一下Python基础知识,文中对数据类型相关知识做了详细的汇总,对刚入门python的小伙伴很有帮助哟,需要的朋友可以参考下
2021-05-05
使用Python的判断语句模拟三目运算
这篇文章主要介绍了使用Python的判断语句模拟三目运算,Python中没有类似C语言那样的三目运算符,不过可以进行简单地模拟实现,需要的朋友可以参考下
2015-04-04
详解Django中六个常用的自定义装饰器
这篇文章主要介绍了详解Django中六个常用的自定义装饰器,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-07-07
Python自动化办公之Word文档的创建与生成
这篇文章主要为大家详细介绍了如何通过python脚本来自动生成一个 word文档，文中的示例代码讲解详细，感兴趣的小伙伴可以了解一下
2022-05-05
pytorch模型的保存加载与续训练详解
这篇文章主要为大家介绍了pytorch模型的保存加载与续训练详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-11-11
Flask框架信号用法实例分析
这篇文章主要介绍了Flask框架信号用法,结合实例形式分析了Blinker的安装及信号的接收等相关操作技巧,需要的朋友可以参考下
2018-07-07
Python实用技巧之轻松处理大型文件
Python在文件处理方面提供了非常强大的支持,然而,当处理大型文件时,标准的文件处理技术会导致高内存使用,所以下面我们就来看看如何在Python中有效地处理大型文件吧
2024-03-03
解决NameError:name'pip'is not defined使用pip
使用pip时遇到NameError:name ‘pip’ is not defined错误通常是由于在Python环境内直接尝试运行pip命令导致的,正确的做法是在Python外部的命令行中运行pip命令,这个错误提醒我们在使用pip时,应确保在正确的环境中执行相关命令
2024-10-10
详解PyQt5信号与槽的几种高级玩法
这篇文章主要介绍了详解PyQt5信号与槽的几种高级玩法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-03-03

python决策树之C4.5算法详解

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具