Python matplotlib实战之箱型图绘制

 更新时间:2023年08月31日 10:59:57   作者:databook  
箱型图(Box Plot),也称为盒须图或盒式图,是一种用作显示一组数据分布情况的统计图,因型状如箱子而得名,本文主要为大家介绍了如何使用Matplotlib绘制箱型图,需要的小伙伴可以参考下

箱型图(Box Plot),也称为盒须图或盒式图,1977年由美国著名统计学家约翰·图基(John Tukey)发明,是一种用作显示一组数据分布情况的统计图,因型状如箱子而得名。

它能显示出一组数据的最大值、最小值、中位数及上下四分位数。

箱子的顶端和底端,分别代表上下四分位数。

箱子中间的是中位数线,它将箱子一分为二。从箱子延伸出去的线条展现出了上下四分位数以外的数据,由于这两根延伸出去的线像是胡须,因此箱形图也被称为盒须图。

箱形图最大的优势是,它以一种简单的方式,概括出一个或多个数值变量的分布,同时又不会占据太多空间。

1. 主要元素

它主要由以下五个元素组成:

  • 最大值:表示数据的最大值,排除了异常值后的上限。
  • 上四分位线:数据的上四分位数,将数据分为四等份,处于上边缘和中位数之间的数据。也称为第三四分位数。
  • 中位数:数据的中位数,将数据分为两等份,处于上四分位数和下四分位数之间的数据。也称为第二四分位数。
  • 下四分位线:数据的下四分位数,将数据分为四等份,处于中位数和下边缘之间的数据。也称为第一四分位数。
  • 最小值:表示数据的最小值,排除了异常值后的下限。

2. 适用的场景

箱型图适用于以下分析场景:

  • 数据分布比较:比较不同组数据的分布情况。通过将多个箱型图放在一起,可以直观地比较它们的中位数、四分位数和离群值等信息,从而了解它们之间的差异。
  • 离群值检测:检测数据中的离群值。离群值是与其他数据点相比明显偏离的数据点,它们可能是数据收集或记录过程中的异常或错误。箱型图中的离群点可以帮助识别这些异常值。
  • 数据中心趋势和离散程度:通过中位数和四分位距(上四分位数与下四分位数之差)展示了数据的中心趋势和离散程度。中位数提供了数据的中心位置,四分位距提供了数据的离散程度。
  • 数据分布形状:提供关于数据分布形状的一些信息。例如,如果箱型图的上下边缘和中位数都接近,箱型图可能显示出对称的分布。如果箱型图的上边缘比下边缘长,中位数偏向下边缘,可能显示出右偏分布。

3. 不适用的场景

箱型图不适用于以下分析场景:

  • 数据样本过小:当数据样本过小时,箱型图可能无法提供足够的信息来准确描述数据的分布情况。
  • 数据分布复杂:当数据分布非常复杂或包含多个峰值时,箱型图可能无法完全捕捉到数据的特征。
  • 数据缺失:如果数据中存在大量缺失值,箱型图可能无法提供准确的分布信息。

4. 分析实战

本次通过箱型图分析我国三大产业对GDP的贡献情况。

4.1. 数据来源

数据来自国家统计局公开的历年数据,整理好的文件从下面的地址下载:databook.top/nation/A02

使用的是其中的 A0201.csv 文件(国内生产总值)

fp = "d:/share/data/A0201.csv"
df = pd.read_csv(fp)
df

4.2. 数据清理

过滤出三大产业在2013年~2022年的增加值数据。

data = df[df["zb"].isin(["A020103", 
                         "A020104",
                         "A020105"])].copy()
data = data[data["sj"] > 2012]
data

其中,A020103A020104A020105 分别是三大产业的指标编号。

4.3. 分析结果可视化

通过箱型图展示三大产业的增加值情况:

fig = plt.figure()
ax = fig.add_axes([0.1, 0.1, 1, 1])
graph = ax.boxplot(
    [
        data[data["zb"] == "A020103"].loc[:, "value"],
        data[data["zb"] == "A020104"].loc[:, "value"],
        data[data["zb"] == "A020105"].loc[:, "value"],
    ],
    vert=True,
    patch_artist=True,
    labels=["第一产业", "第二产业", "第三产业"]
)
ax.set_title("2013~2022 三大产业对GDP增加值(亿元)")
colors = ['pink', 'lightblue', 'lightgreen']
for patch, color in zip(graph['boxes'], colors):
    patch.set_facecolor(color)
plt.show()

从图中可以看出,近10年来,第一产业的增加值明显低于其他两个产业。

第二第三产业的上下限的值相差比较大,说明增长或者下降比较明显(看了数据,是增长明显)。

第一产业的中位数(红色的横线)偏下半部分,说明多数的年份增加值比较低

第二产业的中位数(红色的横线)偏上半部分,说明多数的年份增加值比较高

到此这篇关于Python matplotlib实战之箱型图绘制的文章就介绍到这了,更多相关Python箱型图内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python可视化 matplotlib画图使用colorbar工具自定义颜色

    python可视化 matplotlib画图使用colorbar工具自定义颜色

    这篇文章主要介绍了python可视化 matplotlib画图使用colorbar工具自定义颜色,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • python实现一个简单的并查集的示例代码

    python实现一个简单的并查集的示例代码

    本篇文章主要介绍了python实现一个简单的并查集的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-03-03
  • Python中NumPy的线性代数子模块linalg详解

    Python中NumPy的线性代数子模块linalg详解

    这篇文章主要介绍了Python中NumPy的线性代数子模块linalg详解,NumPy 的线性代数子模块linalg提供了 20 余个函数,用于求解行列式、逆矩阵、特征值、特征向量,以及矩阵分解等,需要的朋友可以参考下
    2023-08-08
  • Python Matplotlib数据可视化模块使用详解

    Python Matplotlib数据可视化模块使用详解

    matplotlib是基建立在python之上,适用于创建静态,动画和交互式可视化,通常与数据分析模块pandas搭配使用,用于数据的分析和展示,适用于主流的操作系统,如Linux、Win、Mac
    2022-11-11
  • Python 20行简单实现有道在线翻译的详解

    Python 20行简单实现有道在线翻译的详解

    这篇文章主要介绍了Python实现有道在线翻译的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05
  • Python连接mssql数据库编码问题解决方法

    Python连接mssql数据库编码问题解决方法

    这篇文章主要介绍了Python连接mssql数据库编码问题解决方法,本文方法同样适用mysql、sqllite、mongodb等数据库,需要的朋友可以参考下
    2015-01-01
  • python爬虫常见错误集合

    python爬虫常见错误集合

    这篇文章主要介绍了python爬虫常见错误,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • python解释模型库Shap实现机器学习模型输出可视化

    python解释模型库Shap实现机器学习模型输出可视化

    Shap 是一个开源的 python 库,用于解释模型。它可以创建多种类型的可视化,有助于了解模型和解释模型是如何工作的。在本文中,我们将会分享一些Shap创建的不同类型的机器学习模型可视化
    2021-11-11
  • Python正则表达式学习小例子

    Python正则表达式学习小例子

    这篇文章主要介绍了Python正则表达式学习小例子,学习python的朋友可以参考一下
    2020-03-03
  • Python如何计算两个不同类型列表的相似度

    Python如何计算两个不同类型列表的相似度

    在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧
    2025-02-02

最新评论