Pandas数据清洗和预处理的实现示例

更新时间：2024年01月04日 08:57:13 作者：西玥

本文主要介绍了Pandas数据清洗和预处理的实现示例,包括处理缺失值、异常值,进行数据转换和规范化,以及处理重复数据等操作,感兴趣的可以了解一下

让我们通过几个案例来学习如何使用Pandas进行数据清洗和预处理，包括处理缺失值、异常值，进行数据转换和规范化，以及处理重复数据等操作。

处理缺失值：

# 创建包含缺失值的DataFrame
data = {
    '姓名': ['张三', '李四', None, '赵六'],
    '年龄': [18, 19, None, 20],
    '性别': ['男', '女', '男', '女'],
    '分数': [90, None, 95, 80]
}
df = pd.DataFrame(data)

# 检测缺失值
print(df.isnull())

# 删除包含缺失值的行
df_dropna = df.dropna()
print(df_dropna)

# 使用指定值填充缺失值
df_fillna = df.fillna(0)
print(df_fillna)

处理异常值：

# 创建包含异常值的DataFrame
data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [18, -10, 17, 20],
    '性别': ['男', '女', '男', '女'],
    '分数': [90, 85, 105, 80]
}
df = pd.DataFrame(data)

# 检测异常值
age_outliers = df[(df['年龄'] < 0) | (df['年龄'] > 100)]
print(age_outliers)

score_outliers = df[(df['分数'] < 0) | (df['分数'] > 100)]
print(score_outliers)

# 替换异常值
df.loc[df['年龄'] < 0, '年龄'] = 18
df.loc[df['分数'] < 0, '分数'] = 0
print(df)

数据转换和规范化：

# 将姓名列转换为大写
df['姓名'] = df['姓名'].str.upper()
print(df)

# 将分数归一化到0-1之间
df['分数_normalized'] = (df['分数'] - df['分数'].min()) / (df['分数'].max() - df['分数'].min())
print(df)

# 使用字典映射进行数据规范化
gender_mapping = {'男': 1, '女': 0}
df['性别_encoded'] = df['性别'].map(gender_mapping)
print(df)

处理重复数据：

# 创建包含重复数据的DataFrame
data = {
    '姓名': ['张三', '李四', '王五', '张三'],
    '年龄': [18, 19, 17, 20],
    '性别': ['男', '女', '男', '男'],
    '分数': [90, 85, 95, 80]
}
df = pd.DataFrame(data)

# 检测重复行
duplicate_rows = df.duplicated()
print(duplicate_rows)

# 删除重复行
df_drop_duplicates = df.drop_duplicates()
print(df_drop_duplicates)

通过这些案例，您可以学习如何使用Pandas提供的函数和方法来处理数据清洗和预处理的任务。这些操作可以帮助您处理缺失值、异常值，进行数据转换和规范化，并处理重复数据，使数据适合后续的分析和建模。掌握这些技巧可以提高数据质量和准确性，从而得到更可靠的分析结果。您可以根据实际需求在项目中应用这些技术。

到此这篇关于Pandas数据清洗和预处理的实现示例的文章就介绍到这了,更多相关Pandas数据清洗和预处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

使用pickle存储数据dump 和 load实例讲解
今天小编就为大家分享一篇使用pickle存储数据dump 和 load实例讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
Python根据输入参数计算结果的实例方法
在本篇文章里小编个大家整理了一篇关于Python根据输入参数计算结果的实例方法，有兴趣的朋友们可以跟着学习参考下。
2021-08-08
Python利用Spire.OCR for Python实现从图片中提取文本和坐标
在数据处理、文档数字化及图像内容分析等开发场景中,光学字符识别（OCR）技术常被用于将图像中的文字转化为可编辑、可搜索的文本格式,Spire.OCR for Python 作为 Python 生态中的一款 OCR 类库,可实现图片文本提取及文字位置定位,下面小编为大家详细说说
2025-10-10
windows 10下安装搭建django1.10.3和Apache2.4的方法
最近发现很多教程都是在linux上搭建，windows上似乎天生不太适合，但是我还是愿意试试这个坑。下面这篇文章主要给大家介绍了在windows 10系统下安装搭建django1.10.3和Apache2.4的方法，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-04-04
Python垃圾邮件的逻辑回归分类示例详解
这篇文章主要给大家介绍了关于Python垃圾邮件的逻辑回归分类的相关资料,作为初学者实践文本分类是一个不错的开始,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2021-11-11
python爬虫之BeautifulSoup 使用select方法详解
本篇文章主要介绍了python爬虫之BeautifulSoup 使用select方法详解，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-10-10
python beautifulsoup4 模块详情
本文主要介绍了python beautifulsoup4模块详情,BeautifulSoup4是一款python解析库,主要用于解析HTML和XML,在爬虫知识体系中解析 HTML 会比较多一些，下文更多相关内容，需要的小伙伴可以参考一下
2022-05-05
Windows环境下如何使用Pycharm运行sh文件
这篇文章主要介绍了Windows环境下如何使用Pycharm运行sh文件,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-02-02
python语音识别whisper的使用
本文主要介绍了python语音识别whisper的使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02
Python函数式编程指南（三）：迭代器详解
这篇文章主要介绍了Python函数式编程指南（三）：迭代器详解,本文讲解了迭代器(Iterator)概述、使用迭代器、生成器表达式(Generator expression)和列表解析(List Comprehension)等内容,需要的朋友可以参考下
2015-06-06

Pandas数据清洗和预处理的实现示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具