Python读取多格式Excel并实现跨表匹配合并的完整示例

更新时间：2025年11月17日 08:28:25 作者：程序员爱钓鱼

在数据处理中,经常会遇到这样一个需求：一份是主数据表,另一份是学生/员工/客户的完整信息表, 需要按姓名匹配,把完整信息补充到主表中,听起来简单,但实际操作中常会踩坑,本文就分享一次真实项目中的解决方案,需要的朋友可以参考下

一、需求拆解

最终目标是：

无论是 XLS 还是 XLSX，都能读取
支持跳过表头行
支持跳过第一列（常见为序号）
按姓名进行匹配
把匹配结果插入主表的指定列后（例如 I 列）
输出一个新的 XLSX 文件

为了做到这点，我们需要写一个“通用 Excel 读取函数”。

二、通用 Excel 读取函数（支持 XLS / XLSX）

核心难点在于：

pandas 无法直接读取带旧格式 .xls 的合并单元格或特殊格式
xlrd 只能读取 .xls（新版不支持 .xlsx）

所以策略是：

xls → xlrd
xlsx → pandas(openpyxl)

并手动实现跳过行、跳过列等功能。

三、跨表匹配的整体流程

整个数据处理逻辑如下：

读取主表（XLS/XLSX 均可）
读取信息表（可以从第二行是真表头）
把信息表按“姓名”设置为索引
循环主表每一行，根据姓名取对应信息
把匹配结果拼成新的 DataFrame
插入到主表指定列之后
输出最终的合并表

这个流程能适配各种不同的 Excel 格式，健壮性很高。

四、完整示例代码（已脱敏）

以下是通用示例代码，你可以直接复用：

import pandas as pd
import xlrd
import openpyxl

def read_excel_any(path, sheet_name=None, skip_header_rows=0, skip_first_column=False):
    """
    支持 XLS/XLSX 的通用读取函数
    - skip_header_rows: 跳过前 N 行
    - skip_first_column: 是否跳过第一列（序号）
    """
    if path.lower().endswith(".xls"):
        book = xlrd.open_workbook(path)
        sheet = book.sheet_by_name(sheet_name) if sheet_name else book.sheet_by_index(0)

        data = []
        for r in range(sheet.nrows):
            if r < skip_header_rows:
                continue
            row = sheet.row_values(r)
            if skip_first_column:
                row = row[1:]
            data.append(row)

        df = pd.DataFrame(data[1:], columns=data[0])
        return df

    else:  # XLSX
        df = pd.read_excel(
            path,
            sheet_name=sheet_name,
            engine="openpyxl",
            skiprows=skip_header_rows
        )
        if skip_first_column:
            df = df.iloc[:, 1:]
        return df


# ===== 配置区（示例） ===== #
main_file = "主表.xls"
main_sheet = "数据表"

info_file = "信息表.xlsx"
info_sheet = "全部信息"

info_skip_header = 1
info_skip_first_col = True
# ======================== #

# 读取主表
df_main = read_excel_any(main_file, sheet_name=main_sheet)

# 读取信息表
df_info = read_excel_any(
    info_file,
    sheet_name=info_sheet,
    skip_header_rows=info_skip_header,
    skip_first_column=info_skip_first_col
)

# 确保两张表都有“姓名”列
if "姓名" not in df_main.columns or "姓名" not in df_info.columns:
    raise ValueError("两份表格必须都包含“姓名”列！")

# 设置信息表的索引
df_info_index = df_info.set_index("姓名")

# 按姓名匹配
matched_data = []
for name in df_main["姓名"]:
    if name in df_info_index.index:
        matched_data.append(df_info_index.loc[name].to_dict())
    else:
        # 不存在则填空
        matched_data.append({col: None for col in df_info.columns if col != "姓名"})

df_match = pd.DataFrame(matched_data)

# 匹配内容插入到指定位置（示例：插入到第 8 列之后）
insert_pos = 8
cols_main = df_main.columns.tolist()
new_cols = cols_main[:insert_pos + 1] + df_match.columns.tolist() + cols_main[insert_pos + 1:]

df_out = pd.concat([df_main, df_match], axis=1)[new_cols]

df_out.to_excel("输出结果.xlsx", index=False)

五、关键技术点解释

① 通用读取函数封装的意义

很多项目里主表和信息表格式不同、位置不同、列不同。封装通用函数之后：

脚本可复用性强
更换 Excel 只需修改文件名
结构更清晰、利于维护

② 使用set_index做匹配

df_info.set_index("姓名")

这样查找效率极高，相当于字典查询。

③ 保持原表字段顺序不变

很多业务表格是“固定模板”，不能随意打乱列。这里通过自定义 new_cols 保证了最终顺序完全可控。

六、效果示例

最终输出的 Excel 将会：

保留主表原有字段顺序
在指定列（如 I 列）后插入信息表的字段
按姓名逐行匹配
如果信息表中没有该姓名，填充为空白

整个流程自动化，不需要人工筛选、复制、粘贴。

七、总结

通过 Python 的数据处理能力，我们可以轻松实现：

跨格式 Excel 读取（XLS/XLSX）
灵活处理表头位置与列结构
按姓名精准匹配信息表
保持主表字段顺序
自动生成合并后的最终数据

在实际业务场景（学籍管理、人事数据、客户数据等）中，这类脚本非常实用，大幅提升效率。

如果你有更复杂的需求，比如：

多字段匹配
多表联查
模糊匹配（拼音/首字母）
学生重复名自动识别
批量处理多个文件夹

以上就是Python读取多格式Excel并实现跨表匹配合并的完整示例的详细内容，更多关于Python读取多格式Excel并合并的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python语言变量和数据类型基础学习
这篇文章主要为大家介绍了python语言变量和数据类型基础学习，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-10-10
python如何根据windows窗口名称、进程pid打开窗口(pygetwindow)
pygetwindow是一个Python库,用于获取、操作和管理当前打开的窗口,提供窗口句柄、位置和大小获取、移动、调整大小、最小化、最大化、还原窗口、模拟输入和焦点控制等功能
2026-02-02
python命令行安装包详解
这篇文章主要介绍了python命令行安装包的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
2024-01-01
python3-flask-3将信息写入日志的实操方法
在本篇文章里小编给大家整理的是关于python3-flask-3将信息写入日志的实操方法，有兴趣的朋友们学习下。
2019-11-11
python装饰器常见使用方法分析
这篇文章主要介绍了python装饰器常见使用方法,结合实例形式分析了Python装饰器的功能及三种常见的装饰模式使用技巧,需要的朋友可以参考下
2019-06-06
利用Python将数值型特征进行离散化操作的方法
今天小编就为大家分享一篇利用Python将数值型特征进行离散化操作的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
python之json文件读写操作的四种方法
本文介绍了Python中处理JSON数据的四个主要方法,包括json.loads用于将JSON字符串转化为Python字典,json.load用于从JSON文件读取数据,json.dumps将Python对象转换为JSON字符串,而json.dump则用于将数据写入JSON文件,感兴趣的可以了解一下
2025-12-12
Python去除字符串中某个字符的多种实现方法
这篇文章主要介绍了Python去除字符串中某个字符的多种实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
利用Python抓取行政区划码的方法
做项目的时候会需要用到各个行政区划的代码，最近就碰巧遇到有这个需求，于是就上网搜了一下，测试后分享给大家，这篇文章就给大家分享了利用Python抓取行政区划码的示例代码，有需要的朋友们可以参考借鉴，下面跟着小编一起去学习学习吧。
2016-11-11
一文带你搞懂Python上下文管理器
这篇文章主要为大家介绍了Python上下文管理器，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2021-12-12