Python实现画箱线图展示数据分布情况

 更新时间:2024年07月19日 16:09:55   作者:Lightning-py  
这篇文章主要介绍了Python实现画箱线图展示数据分布情况,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

Python画箱线图展示数据分布情况

箱线图(Boxplot)是一种常用的统计图表,用于展示数据的分布情况。

它由五个统计量组成:

最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值。

通过这些统计量,可以直观地了解数据的集中趋势、离散程度以及是否存在异常值。

构成要素

1.中位数(Q2)

  • 箱线图中的中间线代表数据的中位数,即将数据按大小排列后中间位置的数值。

2.四分位数(Q1和Q3)

  • 箱体的上边界(Q3)和下边界(Q1)分别表示数据的第三四分位数和第一四分位数。
  • 箱子的高度即为四分位距(IQR),是Q3和Q1的差值,用来衡量数据的离散程度。

3.盒须

  • 箱体外部的直线(盒须)延伸至数据集的最大值和最小值,用来显示非异常值的范围。
  • 盒须外部的点表示可能的异常值,即相对于主体数据分布偏离较大的数据点。

4.异常值

  • 在盒须外部的点表示可能存在的异常值,即与其他数据点相比显著偏离的数据。

使用场景

箱线图常用于以下情况:

  • 数据分布比较:可以同时比较多组数据的分布情况,帮助观察各组数据的中位数、四分位数和离散程度。
  • 异常值检测:通过观察箱体外部的点,可以快速发现可能的异常值或离群点。
  • 数据分散度分析:箱体的长度和位置反映了数据的分散程度,有助于对数据的离散程度进行比较。
        # 创建示例数据
        data = {
            'Group': ['A'] * 11 + ['B'] * 10 + ['C'] * 10,
            'Value': [23, 25, 19, 21, 24, 27, 22, 20, 21, 24, -1, # Group A
                      30, 28, 36, 31, 34, 29, 35, 33, 32, 30,  # Group B
                      15, 17, 14, 16, 13, 18, 14, 15, 17, 16]  # Group C
        }

        # 转换为 DataFrame
        df = pd.DataFrame(data)

        # 设置绘图风格
        sns.set(style="whitegrid")

        # 绘制箱线图
        plt.figure(figsize=(10, 6))
        sns.boxplot(x='Group', y='Value', data=df)

        # 添加标题和标签
        plt.title('Box Plot of Three Groups')
        plt.xlabel('Group')
        plt.ylabel('Value')

        # 显示图表
        # plt.show()
        plt.savefig('./boxPlot_seaborn.png')

  • 中位数(箱体内部的横线):每个组的数据中间值。
  • 四分位数(箱体的上下边缘):分别表示25%和75%的数据点。
  • 最小值和最大值(盒须的末端):除去异常值后数据的范围。
  • 异常值(箱体外的点):与其他数据点相距较远的数值。

自定义箱线图

        print('自定义箱线图')
        # 示例数据
        data = [
            {'Min': 10, '50%': 50, 'Mean': 55, '95%': 90, '99%': 97, 'Max': 100},
            {'Min': 20, '50%': 60, 'Mean': 65, '95%': 85, '99%': 92, 'Max': 95},
            {'Min': 5, '50%': 40, 'Mean': 45, '95%': 80, '99%': 88, 'Max': 90}
        ]

        # 准备箱线图数据
        box_data = []
        means = []
        positions = []

        for i, d in enumerate(data):
            box_data.append([d['Min'], d['50%'], d['95%'], d['99%'], d['Max']])
            means.append(d['Mean'])
            positions.append(i + 1)

        # 创建图形
        fig, ax = plt.subplots()

        # 绘制箱线图主体
        ax.boxplot(box_data, vert=False, positions=positions, patch_artist=True, showmeans=False,
                   meanline=True, widths=0.6)

        # 添加均值点
        for i, mean in enumerate(means):
            ax.plot(mean, positions[i], 'ro')

        # 设置轴标签
        ax.set_yticks(np.arange(1, len(data) + 1))
        ax.set_yticklabels([f'Data {i + 1}' for i in range(len(data))])

        # 添加标题和标签
        plt.title('Custom Box Plot with Multiple Data Sets')
        plt.xlabel('Value')

        # 显示图形
        plt.show()
        plt.savefig('./boxPlot_auto.png')

        print('自定义箱线图')
        plt.clf()  # 清除当前图形内容
        # 数据
        # Min、50%、Mean、95%、99%、Max
        data = [
            {'data1':[10,50,44,90,97,100]},
            {'data2':[20,60,65,85,92,95]},
            {'data3':[5,40,45,80,88,90]}
        ]

        # 准备箱线图数据
        box_data = [d[list(d.keys())[0]] for d in data]  # 提取数据
        labels = [list(d.keys())[0] for d in data]
        means = [d[list(d.keys())[0]][2] for d in data]


        # 创建图形
        fig, ax = plt.subplots()

        # 绘制箱线图主体
        bp = ax.boxplot(box_data, vert=False,  patch_artist=True, showmeans=True,meanline=True)

        # 添加均值点
        for i, mean in enumerate(means):
            ax.plot(mean, i+1, 'ro')

        # 设置轴标签
        ax.set_yticklabels(labels)

        # 添加标题和标签
        plt.title('Custom Box Plot with Multiple Data Sets')
        plt.xlabel('Value')

        # 显示图形
        # plt.show()
        plt.savefig('./boxPlot_auto.png')
  • box_data提供了要绘制的数据。
  • vert=False表示绘制水平的箱线图。
  • patch_artist=True使得箱线图的箱体部分被填充颜色。
  • showmeans=True在箱线图中显示均值。
  • meanline=True用线条表示均值。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python3实现的画图及加载图片动画效果示例

    Python3实现的画图及加载图片动画效果示例

    这篇文章主要介绍了Python3实现的画图及加载图片动画效果,结合实例形式分析了Python3基于tkinter库进行图片加载动画效果的相关实现与使用技巧,需要的朋友可以参考下
    2018-01-01
  • Tkinter组件实现Radiobutton的示例

    Tkinter组件实现Radiobutton的示例

    Radiobutton组件用于实现多选一的问题,本文主要介绍了Tkinter组件实现Radiobutton的示例,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • 关于python函数的建立、调用、传参、返回值详解

    关于python函数的建立、调用、传参、返回值详解

    这篇文章主要介绍了关于python函数的建立、调用、传参、返回值详解,Python 还支持自定义函数,即将一段有规律的、可重复使用的代码定义成函数,从而达到一次编写多次调用的目的,需要的朋友可以参考下
    2023-07-07
  • Python OpenCV学习之特征点检测与匹配详解

    Python OpenCV学习之特征点检测与匹配详解

    提取图像的特征点是图像领域中的关键任务,不管在传统还是在深度学习的领域中,特征代表着图像的信息,对于分类、检测任务都是至关重要的。这篇文章主要为大家详细介绍了OpenCV特征点检测与匹配,需要的可以参考一下
    2022-01-01
  • LeetCode189轮转数组python示例

    LeetCode189轮转数组python示例

    这篇文章主要为大家介绍了LeetCode189轮转数组python解法示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-08-08
  • Django实现在线无水印抖音视频下载(附源码及地址)

    Django实现在线无水印抖音视频下载(附源码及地址)

    该项目功能简单,完全复制SaveTweetVedio的项目。用户观看抖音视频时选择复制视频链接,输入到下载输入栏,即可下载无水印视频,还可扫描二维码手机上预览。亲测成功。
    2021-05-05
  • 用python删除java文件头上版权信息的方法

    用python删除java文件头上版权信息的方法

    在使用他人代码时,为不保留文件头部版权信息,需要一个个删掉,下面是用python删除java文件头上的版权信息的方法
    2014-07-07
  • python requests证书问题解决

    python requests证书问题解决

    这篇文章主要介绍了python requests证书问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • Python实现自动驾驶训练模型

    Python实现自动驾驶训练模型

    这篇文章主要为大家介绍了Python实现自动驾驶训练模型,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • python在线编译器的简单原理及简单实现代码

    python在线编译器的简单原理及简单实现代码

    这篇文章主要介绍了python在线编译器的简单原理及简单实现代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-02-02

最新评论