Pandas数据清洗和预处理的实现示例

 更新时间:2024年01月04日 08:57:13   作者:西玥  
本文主要介绍了Pandas数据清洗和预处理的实现示例,包括处理缺失值、异常值,进行数据转换和规范化,以及处理重复数据等操作,感兴趣的可以了解一下

让我们通过几个案例来学习如何使用Pandas进行数据清洗和预处理,包括处理缺失值、异常值,进行数据转换和规范化,以及处理重复数据等操作。

处理缺失值:

# 创建包含缺失值的DataFrame
data = {
    '姓名': ['张三', '李四', None, '赵六'],
    '年龄': [18, 19, None, 20],
    '性别': ['男', '女', '男', '女'],
    '分数': [90, None, 95, 80]
}
df = pd.DataFrame(data)

# 检测缺失值
print(df.isnull())

# 删除包含缺失值的行
df_dropna = df.dropna()
print(df_dropna)

# 使用指定值填充缺失值
df_fillna = df.fillna(0)
print(df_fillna)

处理异常值:

# 创建包含异常值的DataFrame
data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [18, -10, 17, 20],
    '性别': ['男', '女', '男', '女'],
    '分数': [90, 85, 105, 80]
}
df = pd.DataFrame(data)

# 检测异常值
age_outliers = df[(df['年龄'] < 0) | (df['年龄'] > 100)]
print(age_outliers)

score_outliers = df[(df['分数'] < 0) | (df['分数'] > 100)]
print(score_outliers)

# 替换异常值
df.loc[df['年龄'] < 0, '年龄'] = 18
df.loc[df['分数'] < 0, '分数'] = 0
print(df)

数据转换和规范化:

# 将姓名列转换为大写
df['姓名'] = df['姓名'].str.upper()
print(df)

# 将分数归一化到0-1之间
df['分数_normalized'] = (df['分数'] - df['分数'].min()) / (df['分数'].max() - df['分数'].min())
print(df)

# 使用字典映射进行数据规范化
gender_mapping = {'男': 1, '女': 0}
df['性别_encoded'] = df['性别'].map(gender_mapping)
print(df)

处理重复数据:

# 创建包含重复数据的DataFrame
data = {
    '姓名': ['张三', '李四', '王五', '张三'],
    '年龄': [18, 19, 17, 20],
    '性别': ['男', '女', '男', '男'],
    '分数': [90, 85, 95, 80]
}
df = pd.DataFrame(data)

# 检测重复行
duplicate_rows = df.duplicated()
print(duplicate_rows)

# 删除重复行
df_drop_duplicates = df.drop_duplicates()
print(df_drop_duplicates)

通过这些案例,您可以学习如何使用Pandas提供的函数和方法来处理数据清洗和预处理的任务。这些操作可以帮助您处理缺失值、异常值,进行数据转换和规范化,并处理重复数据,使数据适合后续的分析和建模。掌握这些技巧可以提高数据质量和准确性,从而得到更可靠的分析结果。您可以根据实际需求在项目中应用这些技术。

到此这篇关于Pandas数据清洗和预处理的实现示例的文章就介绍到这了,更多相关Pandas数据清洗和预处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python3判断url链接是否为404的方法

    python3判断url链接是否为404的方法

    这篇文章主要介绍了python3判断url链接是否为404的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-08-08
  • Python cookbook(字符串与文本)针对任意多的分隔符拆分字符串操作示例

    Python cookbook(字符串与文本)针对任意多的分隔符拆分字符串操作示例

    这篇文章主要介绍了Python cookbook(字符串与文本)针对任意多的分隔符拆分字符串操作,结合实例形式分析了Python使用split()及正则表达式进行字符串拆分操作相关实现技巧,需要的朋友可以参考下
    2018-04-04
  • Python实现将MySQL数据库查询结果导出到Excel

    Python实现将MySQL数据库查询结果导出到Excel

    在实际工作中,我们经常需要将数据库中的数据导出到Excel表格中进行进一步的分析和处理,Python中的pymysql和xlsxwriter库提供了很好的解决方案,下面我们就来看看具体操作方法吧
    2023-11-11
  • Python+wxPython实现文件内容搜索工具

    Python+wxPython实现文件内容搜索工具

    在本篇文章中,我们将介绍如何使用 wxPython 库创建一个简单的文件搜索工具,文中的示例代码讲解详细,具有一定的学习价值,感兴趣的小伙伴可以了解一下
    2023-08-08
  • Django 路由层URLconf的实现

    Django 路由层URLconf的实现

    这篇文章主要介绍了Django 路由层URLconf的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12
  • Python中实现常量(Const)功能

    Python中实现常量(Const)功能

    这篇文章主要介绍了Python中实现常量(Const)功能,python语言本身没有提供const,本文使用一个类来实现常量定义功能,并介绍了使用方法,需要的朋友可以参考下
    2015-01-01
  • turtle的基础使用之python turtle递归绘图

    turtle的基础使用之python turtle递归绘图

    这篇文章主要介绍了turtle的基础使用之python turtle递归绘图,turtle是一种比较简单的第三方库,下面借助递归绘图详细描述该内容,具有一的的知识性参考价值,需要的朋友可以参考一下
    2022-02-02
  • Python pygame绘制文字制作滚动文字过程解析

    Python pygame绘制文字制作滚动文字过程解析

    这篇文章主要介绍了Python pygame绘制文字制作滚动文字过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • 安装PyTorch的详细过程记录

    安装PyTorch的详细过程记录

    PyTorch是一个基于Python的科学计算框架,用于进行深度学习相关研究,下面这篇文章主要给大家介绍了关于安装PyTorch的详细过程,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2022-03-03
  • Django中如何用xlwt生成表格的方法步骤

    Django中如何用xlwt生成表格的方法步骤

    这篇文章主要介绍了Django中如何用xlwt生成表格的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01

最新评论