python  dataprep库简化加速数据科学操作

 更新时间:2024年01月30日 11:32:57   作者:程序员小寒  
这篇文章主要为大家介绍了python  dataprep库简化加速数据科学操作,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

python  dataprep数据科学库

今天给大家分享一个超酷的 python 库,dataprep

https://github.com/sfu-db/dataprept 

Dataprep 是一个开源的 Python 库,它的主要目标是简化和加快数据科学操作,特别关注简化探索性数据分析(EDA) 阶段

通过利用 DataPrep 的强大功能,数据科学家可以显着减少执行 EDA 任务所花费的时间

该库包含三个主要的API供我们使用,它们是:

  • 从常见数据源收集数据(dataprep.connector )
  • 进行探索性数据分析(dataprep.eda)
  • 清理和标准化数据(dataprep.clean)

DataPrep 包旨在实现快速数据探索,并与 Pandas 的 DataFrame 对象良好配合。

库的安装

我们将首先使用 pip 安装 Dataprep 库。下面给出的命令将执行此操作。

pip install -U dataprep

数据准备

DataPrep 使我们能够使用一行代码创建交互式配置文件报告

该报告对象是一个与我们的 Notebook 分离的 HTML 对象,具有多种探索选择。

让我们使用示例数据尝试该 API。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic")
df.head()

我们将使用泰坦尼克号样本数据集作为我们的数据。

加载数据后,我们将使用 create_report 函数来生成交互式报告。

create_report(df).show_browser()

正如我们在上面的 GIF 中看到的,API 创建了一个很好的交互式报告供我们探索。

让我们尝试一一剖析这些信息。

概述选项卡

从概述选项卡中,我们可以看到数据集中的所有概述信息。

我们可以获得的信息包括缺失数据数量和百分比、重复数据、变量数据类型以及每个变量的详细信息

变量选项卡

变量选项卡为我们提供了数据集中每个变量的详细信息。

几乎你需要的所有信息都可用,例如,分位数和描述性统计、分布和正态性

交互选项卡

交互选项卡将从两个数值变量创建散点图。

我们可以自己设置 X 轴和 Y 轴,这使我们能够控制如何可视化它。

相关性选项卡

相关性选项卡为我们提供了数值之间的统计相关性。

目前,我们可以使用三种计算:Pearson、Spearman 和 KendallTau

缺失值选项卡

缺失值选项卡为我们提供了有关选项卡中缺失值的所有详细信息。

我们可以选择条形图、频谱、热图和树状图来充分探索缺失值信息。

数据清理

DataPrep Cleaning API 集合提供了 140 多个 API 来清理和验证我们的 DataFrame。

让我们通过泰坦尼克号数据集示例尝试列标题清理功能。

from dataprep.clean import clean_headers
clean_headers(df, case = 'const').head()

使用 “ Const ” 大小写,我们最终会得到所有大写的列名称

如果你想要一个完整干净的 DataFrame,我们可以使用 DataPrep 中的 clean_df API 。

该 API 将有两个输出—推断的数据类型和清理后的 DataFrame。

from dataprep.clean import clean_df
inferred_dtypes, cleaned_df = clean_df(df)

以上就是python dataprep库简化加速数据科学操作的详细内容,更多关于python dataprep数据科学库的资料请关注脚本之家其它相关文章!

相关文章

  • Python常用标准库详解(pickle序列化和JSON序列化)

    Python常用标准库详解(pickle序列化和JSON序列化)

    这篇文章主要介绍了Python常用标准库,主要包括pickle序列化和JSON序列化模块,通过使用场景分析给大家介绍的非常详细,需要的朋友可以参考下
    2022-05-05
  • Python中使用dwebsocket实现后端数据实时刷新

    Python中使用dwebsocket实现后端数据实时刷新

    dwebsocket是Python中一款用于实现WebSocket协议的库,可用于后端数据实时刷新。在Django中结合使用dwebsocket和Channels,可以实现前后端的实时通信,支持双向数据传输和消息推送,适用于实时聊天、数据监控、在线游戏等场景
    2023-04-04
  • Python中的shutil模块使用详解

    Python中的shutil模块使用详解

    这篇文章主要介绍了Python中的shutil模块使用详解,shutil库作为os模块的补充,提供了复制、移动、删除、压缩、解压等操作,这些 os 模块中一般是没有提供的,需要的朋友可以参考下
    2023-09-09
  • pycharm中选中一个单词替换所有重复单词的实现方法

    pycharm中选中一个单词替换所有重复单词的实现方法

    这篇文章主要介绍了pycharm中选中一个单词替换所有重复单词的实现方法,类似于sublime 里的ctrl+D功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2020-11-11
  • django 自定义filter 判断if var in list的例子

    django 自定义filter 判断if var in list的例子

    今天小编就为大家分享一篇django 自定义filter 判断if var in list的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • python 中文件输入输出及os模块对文件系统的操作方法

    python 中文件输入输出及os模块对文件系统的操作方法

    这篇文章主要介绍了python 中文件输入输出及os模块对文件系统的操作方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-08-08
  • PyCharm利用pydevd-pycharm实现Python远程调试的详细过程

    PyCharm利用pydevd-pycharm实现Python远程调试的详细过程

    这篇文章主要介绍了PyCharm利用pydevd-pycharm实现Python远程调试,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-09-09
  • Python制作简易注册登录系统

    Python制作简易注册登录系统

    这篇文章主要为大家详细介绍了Python简易注册登录系统的制作方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-12-12
  • Python+OpenCV实现相机标定的方法详解

    Python+OpenCV实现相机标定的方法详解

    opencv中内置了张正友的棋盘格标定法,通过一些姿态各异的棋盘格图像,可以标定相机的内外参数,本文为大家介绍OpenCV进行相机标定的具体方法,希望对大家有所帮助
    2023-05-05
  • python实现图片,视频人脸识别(opencv版)

    python实现图片,视频人脸识别(opencv版)

    这篇文章主要介绍了python实现图像,视频人脸识别(opencv版)的的相关资料,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-11-11

最新评论