分享4款Python 自动数据分析神器

 更新时间:2022年03月03日 09:20:29   作者:Python学习与数据挖掘  
这篇文章主要给大家分享的是4款Python 自动数据分析神器,我给大家分享 4 款常用的EDA工具,它们可以自动产出统计数据和图表,为我们节省大量时间,需要的朋友可以参考一下

前言:

我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。比如了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程我们叫做 EDA(Exploratory Data Analysis,探索性数据分析)。

pandas一行行写代码,那太痛苦了!目前已经有很多EDA工具可以自动产出基础的统计数据和图表,能为我们节省大量时间。

在本文,我给大家分享 4 款常用的EDA工具,它们可以自动产出统计数据和图表,为我们节省大量时间。

正式介绍这些工具之前,先来加载数据集

import numpy as np
import pandas as pd
iris = pd.read_csv('iris.csv')
iris

iris是下面用到的数据集,是一个150行 * 4列的 DataFrame

1. PandasGUI

PandasGUI提供数据预览、筛选、统计、多种图表展示以及数据转换。

# 安装
# pip install pandasgui
from pandasgui import show

show(iris)

PandasGUI操作界面

PandasGUI更侧重数据展示,提供了10多种图表,通过可视的方式配置。

但数据统计做的比较简单,没有提供缺失值、相关系数等指标,数据转换部分也只开放了一小部分接口。

2. Pandas Profiling

Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

# 安装:
# pip install -U pandas-profiling
# jupyter nbextension enable --py widgetsnbextension

from pandas_profiling import ProfileReport

profile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)
profile

Pandas Profiling操作界面

每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

PandasGUI 相反,Pandas Profiling没有丰富的图表,但提供了非常多的统计指标以及相关系数。

3. Sweetviz

SweetvizPandas Profiling类似,提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

# 安装
# pip install sweetviz

import sweetviz as sv

sv_report = sv.analyze(iris)
sv_report.show_html()

Sweetviz操作界面

Sweetviz还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。

Sweetviz数据集对比

蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。

4. dtale

最后重磅介绍dtale,它不仅提供丰富图表展示数据,还提供了很多交互式的接口,对数据进行操作、转换。

dtale操作界面

dtale的功能主要分为三部分:数据操作、数据可视化、高亮显示。

4.1 数据操作(Actions)

dtalepandas的函数包装成可视化接口,可以让我们通过图形界面方式来操作数据。

# pip install dtale

import dtale

d = dtale.show(iris)
d.open_browser()

Actions

右半部分图是左边图的中文翻译,用的是 Chrome 自动翻译,有些不是很准确。

举一个数据操作的例子:

Summarize Data

上图是Actions菜单中Summarize Data的功能,它提供了对数据集汇总操作的接口。

上图我们选择按照species列分组,计算sepal_width列的平均值,同时可以看到左下角dtale已经自动为该操作生成了pandas代码。

4.2 数据可视化(Visualize)

提供比较丰富的图表,对每列数据概况、重复行、缺失值、相关系数进行统计和展示。

Visualize

举一个数据可视化的例子:

Describe

上图是Visualize菜单中Describe的功能,它可以统计每列的最值、均值、标准差等指标,并提供图表展示。

右侧的Code Export可以查看生成这些数据的代码。

4.3 高亮显示(Highlight)

对缺失值、异常值做高亮显示,方便我们快速定位到异常的数据。

Highlight

上图显示了将sepal_width字段的异常值。

dtale非常强大,功能也非常多,大家可以多多探索、挖掘。

最后,简单总结一下。如果探索的数据集侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas Profiling和Sweetviz;如果需要做深度的数据探索,那就选择dtale。

到此这篇关于 分享4款Python 自动数据分析神器的文章就介绍到这了,更多相关Python 自动数据分析神器内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django restful framework生成API文档过程详解

    Django restful framework生成API文档过程详解

    这篇文章主要介绍了Django restful framework生成API文档过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python实现二叉树前序、中序、后序及层次遍历示例代码

    Python实现二叉树前序、中序、后序及层次遍历示例代码

    这篇文章主要给大家介绍了关于Python实现二叉树前序、中序、后序及层次遍历的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-05-05
  • flask-restful使用总结

    flask-restful使用总结

    Flask-RESTful是一个用于快速创建RESTful API接口的Flask扩展。,这篇文章主要介绍了flask-restful使用总结,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-12-12
  • Python爬虫实战演练之采集糗事百科段子数据

    Python爬虫实战演练之采集糗事百科段子数据

    读万卷书不如行万里路,只学书上的理论是远远不够的,只有在实战中才能获得能力的提升,本篇文章手把手带你用Python采集糗事百科段子的数据,大家可以在过程中查缺补漏,提升水平
    2021-10-10
  • pyqt5自定义信号实例解析

    pyqt5自定义信号实例解析

    这篇文章主要介绍了pyqt5自定义信号实例解析,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • python辗转相除法求最大公约数和最小公倍数的实现

    python辗转相除法求最大公约数和最小公倍数的实现

    这篇文章主要介绍了python辗转相除法求最大公约数和最小公倍数的实现方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • Python脚本实现datax全量同步mysql到hive

    Python脚本实现datax全量同步mysql到hive

    这篇文章主要和大家分享一下mysql全量同步到hive自动生成json文件的python脚本,文中的示例代码讲解详细,有需要的小伙伴可以参加一下
    2024-10-10
  • CAPL与Python交互的实现

    CAPL与Python交互的实现

    CAPL能做超级多的功能,本文主要介绍了CAPL与Python交互的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-05-05
  • Python实现求两个数组交集的方法示例

    Python实现求两个数组交集的方法示例

    这篇文章主要介绍了Python实现求两个数组交集的方法,涉及Python数组遍历、排序、判断、追加等相关操作技巧,需要的朋友可以参考下
    2019-02-02
  • Python中用startswith()函数判断字符串开头的教程

    Python中用startswith()函数判断字符串开头的教程

    这篇文章主要介绍了Python中用startswith()函数判断字符串开头的教程,startswith()函数的使用是Python学习中的基础知识,本文列举了一些不同情况下的使用结果,需要的朋友可以参考下
    2015-04-04

最新评论