Python Pandas轻松实现数据清理

更新时间：2024年12月31日 15:58:02 作者：傻啦嘿哟

在当今的数据驱动时代,数据清理是数据分析、机器学习项目中至关重要的一步,本文将带大家轻松上手使用Python和Pandas进行数据清理,希望对大家有所帮助

在当今的数据驱动时代，数据清理是数据分析、机器学习项目中至关重要的一步。脏数据、缺失值、重复记录等问题都可能严重影响结果的准确性。Python中的Pandas库凭借其强大的数据处理能力，成为了数据清理的首选工具。本文将通过通俗易懂的语言、简洁的逻辑和丰富的案例，带你轻松上手使用Python和Pandas进行数据清理。

一、Pandas基础与数据导入

Pandas是Python的一个开源数据分析和操作库，提供了高性能、易于使用的数据结构和数据分析工具。它基于NumPy构建，适用于处理表格数据，如CSV、Excel文件等。

1. 安装Pandas

首先，确保你已经安装了Pandas库。如果尚未安装，可以使用以下命令进行安装：

pip install pandas

2. 导入Pandas

import pandas as pd

3. 数据导入

Pandas提供了多种方法导入数据，如从CSV、Excel、SQL数据库等。以下是从CSV文件导入数据的示例：

df = pd.read_csv('data.csv')

二、数据预览与初步分析

在进行数据清理之前，了解数据的结构和内容至关重要。Pandas提供了多种方法帮助我们快速预览数据。

1. 查看数据前几行

print(df.head())

2. 查看数据列名

print(df.columns)

3. 查看数据形状

print(df.shape)

4. 查看数据基本统计信息

print(df.describe())

通过这些方法，我们可以初步了解数据的结构、类型、缺失值情况等，为后续的数据清理工作奠定基础。

三、处理缺失值

缺失值是数据清理中的常见问题。Pandas提供了多种方法来处理缺失值，如删除含有缺失值的行或列、填充缺失值等。

1. 删除缺失值

使用dropna方法可以删除含有缺失值的行或列。

# 删除含有缺失值的行
df_drop_rows = df.dropna()
 
# 删除含有缺失值的列
df_drop_cols = df.dropna(axis=1)

2. 填充缺失值

使用fillna方法可以用指定的值填充缺失值。

# 用0填充缺失值
df_fill_0 = df.fillna(0)
 
# 用列的平均值填充缺失值
df_fill_mean = df.fillna(df.mean())

3. 插值填充

对于时间序列数据，可以使用interpolate方法进行插值填充。

# 插值填充缺失值
df_interpolate = df.interpolate()

四、处理重复值

重复值也是数据清理中需要关注的问题。Pandas提供了duplicated方法和drop_duplicates方法来识别和处理重复值。

1. 识别重复值

# 标记重复值
duplicated_df = df[df.duplicated()]

2. 删除重复值

# 删除重复值，保留第一次出现的记录
df_drop_duplicates = df.drop_duplicates()

3. 删除所有重复值

# 删除所有重复值，只保留唯一记录
df_unique = df.drop_duplicates(keep=False)

五、处理异常值

异常值（离群值）可能对数据分析结果产生显著影响。Pandas虽然没有直接处理异常值的函数，但我们可以结合统计方法和条件筛选来识别和处理异常值。

1. 使用统计方法识别异常值

通常，我们可以使用3σ原则（三倍标准差）或四分位数间距（IQR）来识别异常值。

# 计算四分位数间距（IQR）
Q1 = df['column_name'].quantile(0.25)
Q3 = df['column_name'].quantile(0.75)
IQR = Q3 - Q1
 
# 识别异常值
outliers = df[(df['column_name'] < (Q1 - 1.5 * IQR)) | (df['column_name'] > (Q3 + 1.5 * IQR))]

2. 处理异常值

处理异常值的方法有很多，如删除异常值、用平均值、中位数等替换异常值等。

# 删除异常值
df_no_outliers = df[~((df['column_name'] < (Q1 - 1.5 * IQR)) | (df['column_name'] > (Q3 + 1.5 * IQR)))]
 
# 用中位数替换异常值
median_value = df['column_name'].median()
df['column_name'] = df['column_name'].apply(lambda x: median_value if ((x < (Q1 - 1.5 * IQR)) | (x > (Q3 + 1.5 * IQR))) else x)

六、数据类型转换

在数据清理过程中，我们经常需要将数据类型转换为适合分析的类型。Pandas提供了astype方法来进行数据类型转换。

1. 转换为字符串类型

df['column_name'] = df['column_name'].astype(str)

2. 转换为整数类型

df['column_name'] = df['column_name'].astype(int)

3. 转换为浮点数类型

df['column_name'] = df['column_name'].astype(float)

4. 转换为日期时间类型

df['date_column'] = pd.to_datetime(df['date_column'])

七、数据标准化与归一化

在某些数据分析场景中，我们需要对数据进行标准化或归一化处理，以消除不同量纲对数据分析结果的影响。

1. 标准化

标准化是将数据转换为均值为0、标准差为1的分布。可以使用sklearn.preprocessing.StandardScaler进行标准化处理。

from sklearn.preprocessing import StandardScaler
 
scaler = StandardScaler()
df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

2. 归一化

归一化是将数据缩放到指定的最小值和最大值之间（通常是0和1）。可以使用sklearn.preprocessing.MinMaxScaler进行归一化处理。

from sklearn.preprocessing import MinMaxScaler
 
scaler = MinMaxScaler()
df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

八、案例实战：清理销售数据

下面，我们将通过一个实际的销售数据清理案例，将上述知识综合运用。

1. 数据导入与预览

df = pd.read_csv('sales_data.csv')
print(df.head())

2. 处理缺失值

# 删除含有缺失值的行
df = df.dropna()
 
# 对某些列用指定值填充缺失值（如用0填充缺失的折扣率）
df['discount_rate'] = df['discount_rate'].fillna(0)

3. 处理重复值

df = df.drop_duplicates()

4. 处理异常值

# 计算销售额的四分位数间距
Q1 = df['sales_amount'].quantile(0.25)
Q3 = df['sales_amount'].quantile(0.75)
IQR = Q3 - Q1
 
# 删除销售额异常值
df = df[~((df['sales_amount'] < (Q1 - 1.5 * IQR)) | (df['sales_amount'] > (Q3 + 1.5 * IQR)))]

5. 数据类型转换

# 将日期列转换为日期时间类型
df['order_date'] = pd.to_datetime(df['order_date'])
 
# 将折扣率转换为浮点数类型
df['discount_rate'] = df['discount_rate'].astype(float)

6. 数据标准化

from sklearn.preprocessing import StandardScaler
 
scaler = StandardScaler()
df[['sales_amount', 'quantity']] = scaler.fit_transform(df[['sales_amount', 'quantity']])

7. 清理后的数据预览

print(df.head())

通过以上步骤，我们成功清理了销售数据中的缺失值、重复值、异常值，并对数据进行了类型转换和标准化处理。清理后的数据更加整洁、规范，为后续的数据分析工作奠定了坚实基础。

结语

数据清理是数据分析、机器学习项目中不可或缺的一步。Pandas凭借其强大的数据处理能力，成为了数据清理的首选工具。本文通过通俗易懂的语言、简洁的逻辑和丰富的案例，带你轻松上手使用Python和Pandas

到此这篇关于Python Pandas轻松实现数据清理的文章就介绍到这了,更多相关Python Pandas数据清理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python自制简易mysql连接池的实现示例
本文主要介绍了python自制简易mysql连接池的实现示例，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-11-11
Python 敏感词过滤的实现示例
本文主要介绍了Python 敏感词过滤的实现示例，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-08-08
微信跳一跳python辅助软件思路及图像识别源码解析
这篇文章主要介绍了微信跳一跳python辅助软件思路及图像识别源码解析,需要的朋友可以参考下
2018-01-01
Python求最小公倍数4种方法总结
这篇文章主要给大家介绍了关于Python求最小公倍数4种方法的相关资料,最小公倍数不可以像最大公约数那样直接利用辗转相除法求出,但可以借助辗转相除法求得的最大公约数来求最小公倍数,需要的朋友可以参考下
2023-10-10
Django3.2 自动发现所有路由代码详解
这篇文章主要为大家介绍了Django自动发现所有路由的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2021-12-12
python 中赋值,深拷贝,浅拷贝的区别
这篇文章主要介绍了python 中赋值,深拷贝,浅拷贝的区别，下文利用实例对三者进行详细的解析，具有一的的参考价值，需要的小伙伴可以参考一下，希望对你的学习有所帮助
2022-03-03
浅谈python数据类型及类型转换
这篇文章主要介绍了浅谈python数据类型及类型转换，介绍了python中的数据类型，以及数据的不可变性，还有字符串，列表等相关内容，具有一定借鉴价值，需要的朋友可以参考下。
2017-12-12
Python NumPy实现数组搜索示例详解
NumPy是一个开源的Python科学计算库，使用NumPy可以很自然地使用数组和矩阵，这篇文章主要介绍了使用NumPy实现数组搜索，文中通过示例代码介绍的非常详细，需要的朋友们下面随着小编来一起学习吧
2023-05-05
使用conda打包环境并离线安装的踩坑及解决
文章介绍了在没有网络的情况下创建和使用虚拟环境的方法,首先,可以下载所有包（.whl文件）,然后离线安装,推荐使用conda-pack工具对虚拟环境进行打包和解包,文章还详细介绍了如何从头开始创建虚拟环境,并使用pip安装所有包,最后,文章总结了虚拟环境打包和解包的步骤
2025-11-11
Python HTMLTestRunner测试报告view按钮失效解决方案
这篇文章主要介绍了Python HTMLTestRunner测试报告view按钮失效解决方案,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-05-05