Pandas读取excel合并单元格的正确方式(openpyxl合并单元格拆分并填充内容)

 更新时间:2023年06月15日 09:51:37   作者:iioSnail  
Excel文件中可能包含合并单元格的数据,下面这篇文章主要给大家介绍了关于Pandas读取excel合并单元格的正确方式,主要介绍的openpyxl合并单元格拆分并填充内容,需要的朋友可以参考下

问题介绍(ffill填充存在的问题)

在pandas读取excel经常会遇到合并单元格的问题。例如:

此时使用pandas读取到的内容为:

如果去百度,几乎所有人会说应该用如下代码:

df['班级'] = df['班级'].ffill()

这样看起来没问题,但是,该解决方案并不能适用于所有场景,甚至会造成数据错误。

例如:

对班级和备注填充后:

孙武空本来是数据缺失,现在被错误的标记成了挂科数据。

再例如:

对所有列填充后:

同样存在大量数据或错误数据。

正确填充方式

思路:① 使用openpyxl将合并单元格拆分,生成中间文件 ② 读取中间文件

第一步,使用如下工具类生成拆分单元格并生成中间文件:

import openpyxl
# 拆分所有的合并单元格,并赋予合并之前的值。
# 由于openpyxl并没有提供拆分并填充的方法,所以使用该方法进行完成
def unmerge_and_fill_cells(worksheet):
    all_merged_cell_ranges = list(
        worksheet.merged_cells.ranges
    )
    for merged_cell_range in all_merged_cell_ranges:
        merged_cell = merged_cell_range.start_cell
        worksheet.unmerge_cells(range_string=merged_cell_range.coord)
        for row_index, col_index in merged_cell_range.cells:
            cell = worksheet.cell(row=row_index, column=col_index)
            cell.value = merged_cell.value
# 读取原始xlsx文件,拆分并填充单元格,然后生成中间临时文件。
def unmerge_cell(filename):
    wb = openpyxl.load_workbook(filename)
    for sheet_name in wb.sheetnames:
        sheet = wb[sheet_name]
        unmerge_and_fill_cells(sheet)
    filename = filename.replace(".xls", "_temp.xls")
    wb.save(filename)
	wb.close()
    # openpyxl保存之后,再用pandas读取会存在公式无法读取到的情况,使用下面方式就可以了
    # 如果你的excel不涉及公式,可以删除下面内容
    # 原理为:使用windows打开excel,然后另存为一下
    from win32com.client import Dispatch
    xlApp = Dispatch("Excel.Application")
    xlApp.Visible = False
    xlBook = xlApp.Workbooks.Open(str(Path(".").absolute() / filename))  # 这里必须填绝对路径
    xlBook.Save()
    xlBook.Close()
    return filename
if __name__ == '__main__':
    unmerge_cell("test.xlsx")

拆分后的sheet页如图:

然后再使用pandas读取中间文件即可:

import pandas as pd
df = pd.read_excel("test_temp.xlsx")

结果为:

总结

到此这篇关于Pandas读取excel合并单元格的正确方式的文章就介绍到这了,更多相关Pandas读取excel合并单元格内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Django中多用户角色和权限管理的实现步骤

    Django中多用户角色和权限管理的实现步骤

    定义用户角色模型:首先,定义一个用户角色模型,该模型表示不同的用户角色,例如管理员、普通用户、编辑等,这篇文章主要介绍了Django中多用户角色和权限管理的实现步骤,需要的朋友可以参考下
    2024-05-05
  • python办公之python编辑word

    python办公之python编辑word

    这篇文章主要介绍了python办公之python编辑word,文章我们以python操作word为例来介绍一些简单的操作,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • python画双y轴图像的示例代码

    python画双y轴图像的示例代码

    今天小编就为大家分享一篇python画双y轴图像的示例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • mac在matplotlib中显示中文的操作方法

    mac在matplotlib中显示中文的操作方法

    这篇文章主要介绍了mac如何在matplotlib中显示中文,本文分步骤给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-03-03
  • Python网络编程 Python套接字编程

    Python网络编程 Python套接字编程

    这篇文章主要为大家详细介绍了Python网络编程的相关资料,Python套接字编程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • Python使用matplotlib.pyplot画热图和损失图的代码详解

    Python使用matplotlib.pyplot画热图和损失图的代码详解

    众所周知,在完成论文相关工作时画图必不可少,如损失函数图、热力图等是非常常见的图,在本文中,总结了这两个图的画法,下面给出了完整的代码,开箱即用,感兴趣的同学可以自己动手尝试一下
    2023-09-09
  • pandas数据预处理之dataframe的groupby操作方法

    pandas数据预处理之dataframe的groupby操作方法

    下面小编就为大家分享一篇pandas数据预处理之dataframe的groupby操作方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • python 如何用terminal输入参数

    python 如何用terminal输入参数

    这篇文章主要介绍了python 如何用terminal输入参数的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • python绘制横向水平柱状条形图

    python绘制横向水平柱状条形图

    这篇文章主要为大家详细介绍了python绘制横向水平柱状条形图,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-04-04
  • tensorflow保持每次训练结果一致的简单实现

    tensorflow保持每次训练结果一致的简单实现

    今天小编就为大家分享一篇tensorflow保持每次训练结果一致的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02

最新评论