python sklearn 画出决策树并保存为PDF的实现过程

 更新时间:2022年07月14日 15:11:41   作者:Dragon水魅  
这篇文章主要介绍了python sklearn 画出决策树并保存为PDF的实现过程,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

利用sklearn画出决策树并保存为PDF

下载Graphviz

进入官网下载并安装:

https://graphviz.gitlab.io/_pages/Download/Download_windows.html

并将下列路径配置为环境变量:

  • D:\software\Graphviz\bin

在cmd中测试:

  • dot -version

python代码

import numpy as np
import pandas as pd
from sklearn import tree
import graphviz
# x,y是sklearn中需要拟合的数据
x = np.array(exam_train)
y = np.array(classes_train)
clf = tree.DecisionTreeClassifier(criterion='entropy', class_weight='balanced', max_depth=25)
clf = clf.fit(x, y)
dot_data = tree.export_graphviz(clf, out_file=None, feature_names=None, filled=True, rounded=True)  # 重要参数可定制
graph = graphviz.Source(dot_data)
graph.render(view=True, format="pdf", filename="decisiontree_pdf")

可以生成一张贼帅的决策树PDF:

python sklearn 决策树运用

数据形式(tree.csv)

age look income orderly target
older ugly low yes no
young ugly high no no
young handsome low no no
young handsome high yes yes
young handsome medium yes yes
young handsome medium no no

python源代码:

# -*- coding:utf-8*-
# 将字典 转化为 sklearn 用的数据形式 数据型 矩阵
from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import preprocessing
from sklearn import tree

allElectronicsData = open('c:/pic/data/tree.csv','rb')
reader = csv.reader(allElectronicsData)
header = reader.next()
# print header
## 数据预处理
featureList = []
labelList = []
for row in reader:
    # print row[-1]
    labelList.append(row[-1])
    # 下面这几步的目的是为了让特征值转化成一种字典的形式,就可以调用sk-learn里面的DictVectorizer,直接将特征的类别值转化成0,1值
    rowDict = {}
    for i in range(1, len(row) - 1):
        rowDict[header[i]] = row[i]
    featureList.append(rowDict)

for each in featureList:
    print each

# Vectorize features
vec = DictVectorizer()
dummyX = vec.fit_transform(featureList).toarray()
print("dummyX:"+str(dummyX))
print(vec.get_feature_names())

# label的转化,直接用preprocessing的LabelBinarizer方法
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
print("dummyY:"+str(dummyY))
print("labelList:"+str(labelList))

#criterion是选择决策树节点的 标准 ,这里是按照“熵”为标准,即ID3算法;默认标准是gini index,即CART算法。
clf = tree.DecisionTreeClassifier()
clf = clf.fit(dummyX,dummyY)
print("clf:"+str(clf))
# 导入相关函数,可视化决策树
# 导出的结果是一个dot文件(在系统默认路劲),需要安装Graphviz才能将它住哪华为PDF或png格式
# 输出的dot文件可以使用graphvize软件转为PDF,graphvize安装目录中的bin目录放入到环境变量的Path中
# 使用如下命令
#cmd
# dot -Tpdf  c:/tree.dot -o c:/tree.pdf
#下载地址:http://www.graphviz.org/Download_windows.php
#生成dot文件
with open("c:/tree.dot",'w') as f:
    f = tree.export_graphviz(clf, feature_names= vec.get_feature_names(),out_file= f)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python 对图片进行简单的处理

    python 对图片进行简单的处理

    介绍一些图片处理的Python代码,有了这些处理代码,我们可以很方便的处理一些图片,Python这里处理图片一般都使用Pillow包,有此需求的朋友可以参考下
    2021-06-06
  • python字符串的一些常见实用操作

    python字符串的一些常见实用操作

    字符串是Pyhon常用的数据类型,我们可以用引号来创建字符创(可以是单引号也可以是双引号,当然引号必须是英文的),这篇文章主要给大家介绍了关于python字符串的一些常见实用操作,需要的朋友可以参考下
    2022-04-04
  • python四则运算表达式求值示例详解

    python四则运算表达式求值示例详解

    这篇文章主要为大家介绍了python四则运算表达式求值示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • python 包(模块 函数 类 定义 导入)使用详解

    python 包(模块 函数 类 定义 导入)使用详解

    这篇文章主要为大家介绍了python 包(模块 函数 类 定义 导入)的使用详细讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • Python音频处理库pydub的使用示例详解

    Python音频处理库pydub的使用示例详解

    pydub是一个轻量级的音频处理库,安装方便,使用简单,这篇文章主要为大家详细介绍了pydub的具体使用,文中的示例代码讲解详细,需要的小伙伴可以参考下
    2023-11-11
  • python 字典的概念叙述和使用方法

    python 字典的概念叙述和使用方法

    Python中还有一个很重要的数据类型就是字典,其实集合的底层使用的也是字典,这篇文章主要介绍了python 字典的概念叙述和使用方法,需要的朋友可以参考下
    2023-02-02
  • Django 删除upload_to文件的步骤

    Django 删除upload_to文件的步骤

    这篇文章主要介绍了Django 删除upload_to文件的步骤,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python如何派生内置不可变类型并修改实例化行为

    python如何派生内置不可变类型并修改实例化行为

    这篇文章主要为大家详细介绍了python如何派生内置不可变类型并修改实例化行为,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • Python利用atexit模块实现优雅处理程序退出

    Python利用atexit模块实现优雅处理程序退出

    Python的atexit模块提供了一种方便的方式来注册这些退出时执行的函数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2024-03-03
  • Python中的sorted函数使用解析

    Python中的sorted函数使用解析

    这篇文章主要介绍了Python中的sorted函数使用解析,sorted()函数可以对可迭代对象进行排序,并且可以人为指定排序的依据以及方式,本文提供了解决与部分实现代码,需要的朋友可以参考下
    2023-10-10

最新评论