使用Pandas实现数据的清理的入门详解

更新时间：2023年08月15日 14:19:11 作者：deephub

数据清理是数据分析过程中的关键步骤，它涉及识别缺失值、重复行、异常值和不正确的数据类型，本文将介绍6个经常使用的数据清理操作，希望对大家有所帮助

检查缺失值

isnull()

方法可以用于查看数据框或列中的缺失值。

# Check for missing values in the dataframe
 df.isnull()
 # Check the number of missing values in the dataframe
 df.isnull().sum().sort_values(ascending=False)

# Check for missing values in the 'Customer Zipcode' column
 df['Customer Zipcode'].isnull().sum()
 # Check what percentage of the data frame these 3 missing values ••represent
 print(f"3 missing values represents {(df['Customer Zipcode'].isnull().sum() / df.shape[0] * 100).round(4)}% of the rows in our DataFrame.")

Zipcode列中有3个缺失值

dropna()

可以删除包含至少一个缺失值的任何行或列。

# Drop all the rows where at least one element is missing
 df = df.dropna()    
 # or df.dropna(axis=0) **(axis=0 for rows and axis=1 for columns)
 # Note: inplace=True modifies the DataFrame rather than creating a new one
 df.dropna(inplace=True)
 # Drop all the columns where at least one element is missing
 df.dropna(axis=1, inplace=True)
 # Drop rows with missing values in specific columns
 df.dropna(subset = ['Additional Order items', 'Customer Zipcode'], inplace=True)

fillna()

也可以用更合适的值替换缺失的值，例如平均值、中位数或自定义值。

# Fill missing values in the dataset with a specific value
 df = df.fillna(0)
 # Replace missing values in the dataset with median
 df = df.fillna(df.median())
 # Replace missing values in Order Quantity column with the mean of Order Quantities
 df['Order Quantity'].fillna(df["Order Quantity"].mean, inplace=True)

检查重复行

duplicate()

方法可以查看重复的行。

# Check duplicate rows
 df.duplicated()
 # Check the number of duplicate rows
 df.duplicated().sum()

drop_duplates()

可以使用这个方法删除重复的行。

# Drop duplicate rows (but only keep the first row)
 df = df.drop_duplicates(keep='first') #keep='first' / keep='last' / keep=False
 # Note: inplace=True modifies the DataFrame rather than creating a new one
 df.drop_duplicates(keep='first', inplace=True)

处理离群值

异常值是可以显著影响分析的极端值。可以通过删除它们或将它们转换为更合适的值来处理它们。

describe()

的maximum和mean之类的信息可以帮助我们查找离群值。

# Get a statistics summary of the dataset
 df["Product Price"].describe()

max”值:1999。其他数值都不接近1999年，而平均值是146，所以可以确定1999是一个离群值，需要处理

或者还可以绘制直方图查看数据的分布。

plt.figure(figsize=(8, 6))
 df["Product Price"].hist(bins=100)

在直方图中，可以看到大部分的价格数据都在0到500之间。

箱线图在检测异常值时也很有用。

plt.figure(figsize=(6, 4))
 df.boxplot(column=['Product Price'])

可以看到价格列有多个离群值数据点。(高于400的值)

检查列的数据类型

info()

可以查看数据集中列的数据类型。

# Provide a summary of dataset
 df.info()

to_datetime()

方法将列转换为日期时间数据类型。

# Convert data type of Order Date column to date
 df["Order Date"] = pd.to_datetime(df["Order Date"])

to_numeric()

可以将列转换为数字数据类型(例如，整数或浮点数)。

# Convert data type of Order Quantity column to numeric data type
 df["Order Quantity"] = pd.to_numeric(df["Order Quantity"])

to_timedelta()

方法将列转换为timedelta数据类型，如果值表示持续时间，可以使用这个函数

# Convert data type of Duration column to timedelta type
 df["Duration "] = pd.to_timedelta(df["Duration"])

删除不必要的列

drop()

方法用于从数据框中删除指定的行或列。

# Drop Order Region column
 # (axis=0 for rows and axis=1 for columns)
 df = df.drop('Order Region', axis=1)
 # Drop Order Region column without having to reassign df (using inplace=True)
 df.drop('Order Region', axis=1, inplace=True)
 # Drop by column number instead of by column label
 df = df.drop(df.columns[[0, 1, 3]], axis=1)  # df.columns is zero-based

数据不一致处理

数据不一致可能是由于格式或单位不同造成的。Pandas提供字符串方法来处理不一致的数据。

str.lower() & str.upper()

这两个函数用于将字符串中的所有字符转换为小写或大写。它有助于标准化DataFrame列中字符串的情况。

# Rename column names to lowercase
 df.columns = df.columns.str.lower()

# Rename values in  Customer Fname column to uppercase
 df["Customer Fname"] = df["Customer Fname"].str.upper()

str.strip()

函数用于删除字符串值开头或结尾可能出现的任何额外空格。

# In Customer Segment column, convert names to lowercase and remove leading/trailing spaces
 df['Customer Segment'] = df['Customer Segment'].str.lower().str.strip()

replace()

函数用于用新值替换DataFrame列中的特定值。

# Replace values in dataset
 df = df.replace({"CA": "California", "TX": "Texas"})

# Replace values in a spesific column
 df["Customer Country"] = df["Customer Country"].replace({"United States": "USA", "Puerto Rico": "PR"})

mapping()

可以创建一个字典，将不一致的值映射到标准化的对应值。然后将此字典与replace()函数一起使用以执行替换。

# Replace specific values using mapping
 mapping = {'CA': 'California', 'TX': 'Texas'}
 df['Customer State'] = df['Customer State'].replace(mapping)

rename()

函数用于重命名DataFrame的列或索引标签。

# Rename some columns
 df.rename(columns={'Customer City': 'Customer_City', 'Customer Fname' : 'Customer_Fname'}, inplace=True)
 # Rename some columns
 new_names = {'Customer Fname':'Customer_Firstname', 'Customer Fname':'Customer_Fname'}
 df.rename(columns=new_names, inplace=True)
 df.head()

总结

Python pandas包含了丰富的函数和方法集来处理丢失的数据，删除重复的数据，并有效地执行其他数据清理操作。

使用pandas功能，数据科学家和数据分析师可以简化数据清理工作流程，并确保数据集的质量和完整性。

到此这篇关于使用Pandas实现数据的清理的入门详解的文章就介绍到这了,更多相关Pandas数据清理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

pip和pygal的安装实例教程
这篇文章主要介绍了pip和pygal的安装实例教程，具有一定借鉴价值，需要的朋友可以参考下。
2017-12-12
通过实例解析python描述符原理作用
这篇文章主要介绍了通过实例解析python描述符原理作用,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-01-01
Matplotlib实战之面积图绘制详解
面积图，或称区域图，是一种随有序变量的变化，反映数值变化的统计图表，这篇文章主要介绍了如何利用Matplotlib实现面积图的绘制，需要的可以参考下
2023-08-08
基于Python制作一个端午节相关的小游戏
端午节快乐，今天我将为大家带来一篇有关端午节的编程文章，希望能够为大家献上一份小小的惊喜，我们将会使用Python来实现一个与端午粽子相关的小应用程序，在本文中，我将会介绍如何用Python代码制做一个“粽子拆解器”，感兴趣的小伙伴欢迎阅读
2023-06-06
python机器学习高数篇之泰勒公式
这篇文章主要介绍了python机器学习高数篇之函数极限和导数，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-08-08
Python找出列表中出现次数最多的元素三种方式
本文通过三种方式给大家介绍Python找出列表中出现次数最多的元素，每种方式通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友参考下
2020-02-02
常用的Python代码调试工具总结
今天给大家带来的是关于Python的相关知识,文章围绕着Python代码调试工具展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
2021-06-06
Python requests库轻松发送HTTP请求的终极指南
在现代网络编程中,HTTP请求是与Web服务交互的基础,本文将全面介绍requests库的使用方法,从基础请求到高级技巧,帮助你掌握网络数据交互的核心技能
2025-08-08
$PyQt转换路径中的斜杠(斜杠(/)与反斜杠(\)转换)$
PyQt转换路径中的斜杠(斜杠(/)与反斜杠(\)转换)
本文主要介绍了PyQt转换路径中的斜杠(斜杠(/)与反斜杠(\)转换)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-07-07
跟老齐学Python之集合的关系
前面一节讲述了集合的基本概念，注意，那里所涉及到的集合都是可原处修改的集合。还有一种集合，不能在原处修改。
2014-09-09