使用Python自动处理Excel数据缺失值的完整指南

更新时间：2025年04月28日 09:47:58 作者：东方佑

在数据分析中,数据清洗是至关重要的第一步,尤其在处理 Excel 文件时,缺失值常常会阻碍分析流程,本文将通过一个自动化脚本,展示如何使用 Python 的 pandas 和 scikit-learn 库,快速填充或删除 Excel 文件中的缺失值,并最终生成干净的数据集,需要的朋友可以参考下

1. 问题背景

在分析 Excel 文件时，缺失值可能以 NaN、空单元格或特殊符号（如 ?）的形式存在。手动处理这些缺失值耗时且容易出错，因此需要自动化解决方案。例如，你可能遇到以下场景：

销售数据：某个月份的销售额未记录。
用户调研表：部分受访者未填写年龄或性别。
传感器数据：设备故障导致部分时间点无记录。

2. 核心工具与原理

工具选择

pandas：Python 数据处理的标准库，用于读取 Excel 文件和数据操作。
scikit-learn：机器学习库中的 SimpleImputer 模块，提供缺失值填充的自动化方法。

填充策略

数值型数据：用列均值（mean）或中位数（median）填充。
类别型数据：用众数（most_frequent）填充。
极端情况：若缺失值占比过高，可直接删除该列或行。

3. 代码实现步骤详解

以下是基于你提供的代码的完整实现流程：

步骤 1：读取 Excel 文件

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel("mx-toys.xlsx")

步骤 2：分离数值型和类别型数据

# 分离数值型和非数值型列
numeric_cols = df.select_dtypes(include=['number']).columns
categorical_cols = df.select_dtypes(exclude=['number']).columns

步骤 3：填充数值型缺失值（均值填充）

from sklearn.impute import SimpleImputer

# 创建数值型填充器（均值策略）
numeric_imputer = SimpleImputer(strategy='mean')

# 填充数值列并转换为 DataFrame
df_numeric = pd.DataFrame(
    numeric_imputer.fit_transform(df[numeric_cols]),
    columns=numeric_cols
)

步骤 4：填充类别型缺失值（众数填充）

# 创建类别型填充器（众数策略）
categorical_imputer = SimpleImputer(strategy='most_frequent')

# 填充类别列并转换为 DataFrame
df_categorical = pd.DataFrame(
    categorical_imputer.fit_transform(df[categorical_cols]),
    columns=categorical_cols
)

步骤 5：合并处理后的数据

# 合并数值和类别数据
df_cleaned = pd.concat([df_numeric, df_categorical], axis=1)

步骤 6：保存清洗后的数据

# 保存为新的 Excel 文件
df_cleaned.to_excel("cleaned_mx-toys.xlsx", index=False)

4. 注意事项与扩展

注意事项

数据类型检查：
- 确保 select_dtypes 正确分离数值和类别列（如 object 类型可能包含文本或日期，需额外处理）。
异常值检测：
- 填充均值可能受异常值影响，可改用中位数（strategy='median'）。
删除策略：
- 若某列缺失值过多（如超过 50%），可直接删除：

df = df.dropna(thresh=len(df)*0.5, axis=1)

扩展功能

可视化缺失值分布：
使用 missingno 库快速查看缺失值分布：

import missingno as msno
msno.matrix(df).show()

自定义填充逻辑：
- 对于时间序列数据，可使用插值法（interpolate()）。
- 对于类别型数据，可填充特定值（如 N/A）：

df_categorical.fillna("Unknown", inplace=True)

5. 完整代码与示例

import pandas as pd
from sklearn.impute import SimpleImputer

def clean_excel_file(file_path, output_path):
    """
    自动处理 Excel 文件中的缺失值：
    1. 数值型列填充均值
    2. 类别型列填充众数
    3. 保存清洗后的数据
    """
    # 读取数据
    df = pd.read_excel(file_path)
    
    # 分离数值和类别列
    numeric_cols = df.select_dtypes(include=['number']).columns
    categorical_cols = df.select_dtypes(exclude=['number']).columns
    
    # 处理数值列
    numeric_imputer = SimpleImputer(strategy='mean')
    df_numeric = pd.DataFrame(
        numeric_imputer.fit_transform(df[numeric_cols]),
        columns=numeric_cols
    )
    
    # 处理类别列
    categorical_imputer = SimpleImputer(strategy='most_frequent')
    df_categorical = pd.DataFrame(
        categorical_imputer.fit_transform(df[categorical_cols]),
        columns=categorical_cols
    )
    
    # 合并数据并保存
    df_cleaned = pd.concat([df_numeric, df_categorical], axis=1)
    df_cleaned.to_excel(output_path, index=False)
    print(f"数据已清洗并保存至 {output_path}")

# 使用示例
clean_excel_file("mx-toys.xlsx", "cleaned_mx-toys.xlsx")

总结

通过上述方法，你可以快速自动化处理 Excel 文件中的缺失值，为后续分析奠定基础。如果需要更复杂的处理（如插值、预测填充），可以结合其他库（如 clevercsv 或 pandas 的 interpolate 方法）进一步优化。

下一步建议：

尝试用 mode() 替换 SimpleImputer，对比结果差异。
对清洗后的数据进行可视化分析（如用 matplotlib 或 seaborn）。
封装为可复用的函数，集成到数据分析工作流中。

以上就是使用Python自动处理Excel数据缺失值的完整指南的详细内容，更多关于Python自动处理Excel缺失值的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python提取视频中的音频的实现示例
MoviePy是一个用于视频编辑的库,它可以提取视频中的音频并保存为音频文件,本文主要介绍了python提取视频中的音频的实现示例,感兴趣的可以了解一下
2024-03-03
详解Python静态网页爬取获取高清壁纸
这篇文章主要介绍了Python爬取高清壁纸，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
删除python pandas.DataFrame 的多重index实例
今天小编就为大家分享一篇删除python pandas.DataFrame 的多重index实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
python os模块介绍
这篇文章主要介绍了python os模块介绍,
2021-12-12
用Python爬取618当天某东热门商品销量数据,看看大家喜欢什么!
618购物节,准备分析一波购物节大家都喜欢买什么？本文以某东为例,Python爬取618活动的畅销商品数据,并进行数据清洗,最后以可视化的方式从不同角度去了解畅销商品中,名列前茅的商品是哪些？销售数据如何？用户好评如何？等等,需要的朋友可以参考下
2021-06-06
Python算法模块之hashlib模块详解
这篇文章主要介绍了Python算法模块之hashlib模块详解,hash是一种算法,不同的hash算法只是复杂度不一样,该算法接受传入的内容，经过运算得到一串hash值,本文提供了部分实例代码方便理解,需要的朋友可以参考下
2023-08-08
python的变量和运算符你都知道多少
这篇文章主要为大家详细介绍了python的变量和运算符，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2022-02-02
Python+Flask开发局域网智能打印服务系统
本文将基于Python Flask开发的跨平台打印服务,支持多种文件格式,具备智能过滤、系统托盘、Web管理等高级功能,让你彻底告别打印烦恼
2025-09-09
Python进行统计建模
这篇文章主要介绍了Python进行统计建模的方法，帮助大家更好的理解和学习Python，感兴趣的朋友可以了解下
2020-08-08
初学python数组的处理代码
初学python数组的处理代码，学习python的朋友可以参考下。
2011-01-01