Pandas读取excel合并单元格的正确方式(openpyxl合并单元格拆分并填充内容)

 更新时间:2023年06月15日 09:51:37   作者:iioSnail  
Excel文件中可能包含合并单元格的数据,下面这篇文章主要给大家介绍了关于Pandas读取excel合并单元格的正确方式,主要介绍的openpyxl合并单元格拆分并填充内容,需要的朋友可以参考下

问题介绍(ffill填充存在的问题)

在pandas读取excel经常会遇到合并单元格的问题。例如:

此时使用pandas读取到的内容为:

如果去百度,几乎所有人会说应该用如下代码:

df['班级'] = df['班级'].ffill()

这样看起来没问题,但是,该解决方案并不能适用于所有场景,甚至会造成数据错误。

例如:

对班级和备注填充后:

孙武空本来是数据缺失,现在被错误的标记成了挂科数据。

再例如:

对所有列填充后:

同样存在大量数据或错误数据。

正确填充方式

思路:① 使用openpyxl将合并单元格拆分,生成中间文件 ② 读取中间文件

第一步,使用如下工具类生成拆分单元格并生成中间文件:

import openpyxl
# 拆分所有的合并单元格,并赋予合并之前的值。
# 由于openpyxl并没有提供拆分并填充的方法,所以使用该方法进行完成
def unmerge_and_fill_cells(worksheet):
    all_merged_cell_ranges = list(
        worksheet.merged_cells.ranges
    )
    for merged_cell_range in all_merged_cell_ranges:
        merged_cell = merged_cell_range.start_cell
        worksheet.unmerge_cells(range_string=merged_cell_range.coord)
        for row_index, col_index in merged_cell_range.cells:
            cell = worksheet.cell(row=row_index, column=col_index)
            cell.value = merged_cell.value
# 读取原始xlsx文件,拆分并填充单元格,然后生成中间临时文件。
def unmerge_cell(filename):
    wb = openpyxl.load_workbook(filename)
    for sheet_name in wb.sheetnames:
        sheet = wb[sheet_name]
        unmerge_and_fill_cells(sheet)
    filename = filename.replace(".xls", "_temp.xls")
    wb.save(filename)
	wb.close()
    # openpyxl保存之后,再用pandas读取会存在公式无法读取到的情况,使用下面方式就可以了
    # 如果你的excel不涉及公式,可以删除下面内容
    # 原理为:使用windows打开excel,然后另存为一下
    from win32com.client import Dispatch
    xlApp = Dispatch("Excel.Application")
    xlApp.Visible = False
    xlBook = xlApp.Workbooks.Open(str(Path(".").absolute() / filename))  # 这里必须填绝对路径
    xlBook.Save()
    xlBook.Close()
    return filename
if __name__ == '__main__':
    unmerge_cell("test.xlsx")

拆分后的sheet页如图:

然后再使用pandas读取中间文件即可:

import pandas as pd
df = pd.read_excel("test_temp.xlsx")

结果为:

总结

到此这篇关于Pandas读取excel合并单元格的正确方式的文章就介绍到这了,更多相关Pandas读取excel合并单元格内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python检测端口IP字符串是否合法

    Python检测端口IP字符串是否合法

    这篇文章主要介绍了Python检测端口IP字符串是否合法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python读取配置文件-ConfigParser的二次封装方法

    Python读取配置文件-ConfigParser的二次封装方法

    这篇文章主要介绍了Python读取配置文件-ConfigParser的二次封装方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • 用python写爬虫简单吗

    用python写爬虫简单吗

    在本篇内容里小编给大家整理的是关于用python写爬虫是否简单的相关内容文章,需要的朋友们可以学习下。
    2020-07-07
  • Pandas数据查询的集中实现方法

    Pandas数据查询的集中实现方法

    本文主要介绍了Pandas数据查询的集中实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • linecache模块加载和缓存文件内容详解

    linecache模块加载和缓存文件内容详解

    这篇文章主要介绍了linecache模块加载和缓存文件内容详解,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • python 求一个列表中所有元素的乘积实例

    python 求一个列表中所有元素的乘积实例

    今天小编就为大家分享一篇python 求一个列表中所有元素的乘积实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • PyQt6 键盘事件处理的实现及实例代码

    PyQt6 键盘事件处理的实现及实例代码

    本文主要介绍了PyQt6 键盘事件处理的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-09-09
  • Python中支持向量机SVM的使用方法详解

    Python中支持向量机SVM的使用方法详解

    这篇文章主要为大家详细介绍了Python中支持向量机SVM的使用方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12
  • Python中threading模块join函数用法实例分析

    Python中threading模块join函数用法实例分析

    这篇文章主要介绍了Python中threading模块join函数用法,以实例形式较为详细的分析了join函数的功能与使用方法,需要的朋友可以参考下
    2015-06-06
  • Python Diagrams创建高质量图表和流程图实例探究

    Python Diagrams创建高质量图表和流程图实例探究

    Python Diagrams是一个强大的Python库,使创建这些图表变得简单且灵活,本文将深入介绍Python Diagrams,包括其基本概念、安装方法、示例代码以及一些高级用法,以帮助大家充分利用这一工具来创建令人印象深刻的图表
    2024-01-01

最新评论