Python实现Word文档中提取表格数据并转换为CSV和JSON格式

更新时间：2025年12月18日 08:51:24 作者：Quest for Knowledge

在日常工作中,我们经常需要处理大量的Word文档,其中包含各种表格数据,手动整理这些表格不仅耗时且容易出错,Python提供了多个库来帮助我们实现这一目标,所以本文给大家介绍了Python实现Word文档中提取表格数据并转换为CSV和JSON格式,需要的朋友可以参考下

前言

在日常工作中，我们经常需要处理大量的Word文档，其中包含各种表格数据。手动整理这些表格不仅耗时且容易出错。因此，开发一个自动化工具来解析Word文档中的表格，并将其转换为更易于处理的CSV或JSON格式，可以极大地提高工作效率。

1.解析Word文档中的表格

Python提供了多个库来帮助我们实现这一目标，其中python-docx库非常适合读取Word文档(.docx)的内容。下面的代码示例展示了一个名为extract_tables_from_docx的函数，该函数接收一个Word文档的路径作为输入，然后解析文档中的所有表格，并将每个表格的数据以嵌套列表的形式返回。

首先导入必要的库

import os
import csv
import json
from docx import Document
from collections import defaultdict
from lxml import etree

def extract_tables_from_docx(docx_path):
    doc = Document(docx_path)
    all_tables_data = []

    for table in doc.tables:
        table_data = []
        merged_cells = defaultdict(str)
        row_spans = defaultdict(lambda: 0)
        for i, row in enumerate(table.rows):
            row_data = []
            for j, cell in enumerate(row.cells):
                cell_text = cell.text.strip()
                cell_xml = etree.fromstring(cell._element.xml)

                nsmap = {'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}
                grid_span = cell_xml.xpath(".//w:gridSpan/@w:val", namespaces=nsmap)
                if grid_span:
                    span = int(grid_span[0])
                    for k in range(span):
                        if k == 0:
                            row_data.append(cell_text)
                        else:
                            merged_cells[(i, j + k)] = cell_text
                else:
                    row_data.append(cell_text)

                v_merge = cell_xml.xpath(".//w:vMerge/@w:val", namespaces=nsmap)
                if v_merge:
                    if v_merge[0] == 'restart':
                        row_spans[(i, j)] = 1
                        merged_cells[(i, j)] = cell_text
                    elif v_merge[0] is None:
                        row_spans[(i, j)] += 1
                        row_data[-1] = merged_cells[(i - row_spans[(i, j)], j)]

            table_data.append(row_data)
        all_tables_data.append(table_data)

    return all_tables_data

该函数使用了lxml库来解析XML，因为.docx文件本质上是ZIP压缩包，其中包含了用于描述文档结构的XML文件。lxml库允许通过XPath查询来访问这些XML元素，从而处理单元格的合并和跨度。

2.保存表格数据

一旦表格数据被提取出来，就可以将其保存为CSV或JSON格式。为此，定义了两个辅助函数save_tables_to_csv和save_tables_to_json，它们分别负责将表格数据写入CSV文件和JSON文件。

def save_tables_to_csv(tables, output_dir, file_name):
    for i, table in enumerate(tables):
        csv_path = os.path.join(output_dir, f"{file_name}_table_{i+1}.csv")
        with open(csv_path, mode='w', newline='', encoding='utf-8') as file:
            writer = csv.writer(file)
            writer.writerows(table)
        print(f"表格 {i+1} 已保存为 CSV 文件，路径为 {csv_path}")

def save_tables_to_json(tables, output_dir, file_name):
    for i, table in enumerate(tables):
        json_path = os.path.join(output_dir, f"{file_name}_table_{i+1}.json")
        with open(json_path, mode='w', encoding='utf-8') as file:
            json.dump(table, file, ensure_ascii=False, indent=4)
        print(f"表格 {i+1} 已保存为 JSON 文件，路径为 {json_path}")

3.处理文件夹中的多个Word文档

为了批量处理文件夹中的多个Word文档，我们可以使用os.listdir和列表推导式来获取所有.doc或.docx文件的列表。然后，对于列表中的每个文件，我们调用上述函数来提取表格并保存结果。

# 设置文件路径和输出目录
docx_path = r'E:\data\\测试表格'
output_dir = r'E:\data\\测试表格'

# 获取文件夹中所有 Word 文件的列表
word_files = [f for f in os.listdir(docx_path) if f.endswith('.doc') or f.endswith('.docx')]


# 提取表格数据并保存为 CSV 和 JSON 文件
for file in word_files:
    file_path = os.path.join(docx_path, file)
    tables = extract_tables_from_docx(file_path)
    file_name = os.path.splitext(file)[0]
    save_tables_to_csv(tables, output_dir, file_name)
    save_tables_to_json(tables, output_dir, file_name)

4.总结

通过这个脚本，可以轻松地从Word文档中提取表格数据，并将其转换为CSV或JSON格式，从而方便进一步的数据分析或导入到数据库中。节省了手动数据录入的时间，还减少了人为错误的可能性，提高了数据处理的效率和准确性。

以上就是Python实现Word文档中提取表格数据并转换为CSV和JSON格式的详细内容，更多关于Python Word数据提取并转为CSV和JSON的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python matplotlib自定义colorbar颜色条及内置色条详解
由于自己画图的需要想要用一些自定义的颜色来做一个colorbar,所以下面这篇文章主要给大家介绍了关于python matplotlib自定义colorbar颜色条及内置色条的相关资料,需要的朋友可以参考下
2022-08-08
Python编写一个Excel批量处理的桌面实用脚本
在办公自动化的需求越来越多的今天,用 Python 做一个属于自己的“批处理小工具”,能轻松帮你节省大量重复劳动,下面我们就来看看如何使用Python编写一个Excel批量处理的桌面实用脚本吧
2025-11-11
python中open函数的基本用法示例
这篇文章主要给大家介绍了关于python中open函数的基本用法，文中通过示例代码介绍的非常详细，对大家学习或者使用python具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-09-09
python爬虫Mitmproxy安装使用学习笔记
这篇文章主要介绍了python爬虫Mitmproxy学习笔记分享，有需要的朋友可以收藏学习下，希望可以对你有所帮助，大家一起共同学习，共同进步
2021-09-09
Django ORM查询操作方式
Django提供了一套非常方便的类似SqlAlchemy ORM的通过对象调用的方式操作数据库表的ORM框架,,本文给大家详细介绍Django ORM查询操作方式,感兴趣的朋友一起看看吧
2023-10-10
详解Python3 pandas.merge用法
pandas提供了一组高级的、灵活的、高效的核心函数，能够轻松的将数据规整化。这节主要对pandas合并数据集的merge函数进行详解，感兴趣的朋友跟随小编一起看看吧
2019-09-09
python障碍式期权定价公式
这篇文章主要为大家详细介绍了python障碍式期权定价公式，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-07-07
Python聊天室程序（基础版）
这篇文章主要为大家详细介绍了Python聊天室程序的基础版，包含客户端和服务器端两部分，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-04-04
Pytho的HTTP交互httpx包模块使用详解
Python 的 httpx 包是一个用于 HTTP 交互的一个优秀且灵活的模块。本文进行详细的讲解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-03-03
python中tkinter实现GUI程序三个实例教程
Python提供了多个GUI库,使开发人员能够轻松创建各种交互式界面,这篇文章主要给大家介绍了关于python中tkinter实现GUI程序的三个实例教程,文中通过代码介绍的非常详细,需要的朋友可以参考下
2024-05-05