Python PDF识别之文本内容与表格提取方法总结

 更新时间:2025年08月21日 10:23:13   作者:幸福清风  
这篇文章主要带大家深入探讨多种PDF文本与表格提取方法,结合实际代码示例,为大家呈现一份全面的PDF提取指南,希望对大家有所帮助

一、前言

在数字化办公的浪潮中,PDF文件以其格式稳定、兼容性强等优点,成为文档存储与传输的重要载体。然而,当我们需要从PDF中提取文本和表格进行进一步处理或分析时,却常常面临诸多挑战。

不同的PDF文件类型、复杂的排版布局、扫描版PDF的图像识别等问题,都可能成为提取过程中的“拦路虎”。本文将深入探讨多种PDF文本与表格提取方法,结合实际代码示例,为大家呈现一份全面的PDF提取指南。

二、文本提取方法

1. pdfplumber:精准提取文本与表格

pdfplumber是一个功能强大的Python库,尤其在处理包含表格的PDF文件时表现出色。通过pdfplumber,我们不仅能提取文本,还能对表格进行精确解析。

import pdfplumber

pdf_path = "你的PDF文件路径"

with pdfplumber.open(pdf_path) as pdf:
    text = ""
    for page in pdf.pages:
        page_text = page.extract_text()
        text += page_text
        print(page_text)

2. fitz(PyMuPDF):快速提取文本与图像

fitz,即PyMuPDF,以其高效性著称。它不仅能够快速提取PDF中的文本,还能处理PDF中的图像内容。

import fitz

doc = fitz.open(pdf_path)
text = ""
for page in doc:
    page_text = page.get_text()
    text += page_text
    print(page_text)

3. PyPDF2:简单文本提取的利器

PyPDF2是一个广为人知的PDF处理库,虽然其功能相对基础,但对于简单的文本提取任务已经足够。

import PyPDF2

def extract_text_from_pdf(pdf_path):
    pdfReader = PyPDF2.PdfReader(pdf_path)
    text = ""
    for page_num in range(len(pdfReader.pages)):
        page = pdfReader.pages[page_num]
        text += page.extract_text()
    return text

print(extract_text_from_pdf(pdf_path))

4. pdfminer:深度自定义提取逻辑

pdfminer是一个高度可定制的PDF处理库,适用于需要深度自定义提取逻辑的场景。

from pdfminer.high_level import extract_text

def extract_text_from_pdf(pdf_path):
    text = extract_text(pdf_path)
    return text

print(extract_text_from_pdf(pdf_path))

5. pdfquery:提取特定区域文本

pdfquery通过坐标定位,能够精确提取指定区域的文本内容。
 

import pdfquery

def extract_specific_text_from_pdf(pdf_path):
    pdf = pdfquery.PDFQuery(pdf_path)
    pdf.load()
    text = pdf.pq('LTTextLineHorizontal:in_bbox("100, 500, 400, 600")').text()
    return text

print(extract_specific_text_from_pdf(pdf_path))

6. pytesseract与PaddleOCR:攻克扫描版PDF

对于扫描版PDF或图像型PDF,可以使用pytesseract和PaddleOCR进行OCR识别。

pytesseract:

from pdf2image import convert_from_path
import pytesseract

def extract_text_from_scanned_pdf(pdf_path):
    pages = convert_from_path(pdf_path)
    text = ""
    for page in pages:
        text += pytesseract.image_to_string(page, lang='chi_sim') + "\n"
    return text

print(extract_text_from_scanned_pdf(pdf_path))

PaddleOCR

from pdf2image import convert_from_path
from paddleocr import PaddleOCR

def extract_text_from_scanned_pdf(pdf_path, lang='ch'):
    ocr = PaddleOCR(use_angle_cls=True, lang=lang)
    pages = convert_from_path(pdf_path)
    text = ""
    for page in pages:
        result = ocr.ocr(page, cls=True)
        for idx in range(len(result)):
            res = result[idx]
            for line in res:
                text += line[1][0] + "\n"
    return text

print(extract_text_from_scanned_pdf(pdf_path))

7. aspose.pdf:商业应用的高质量选择

aspose.pdf是一个商业库,提供了高质量的文本和表格提取功能。

from aspose.pdf import Document
from aspose.pdf.text import TextFragmentAbsorber

def extract_text_from_pdf(pdf_path):
    pdf_doc = Document(pdf_path)
    absorber = TextFragmentAbsorber()
    text = ""
    for page in pdf_doc.pages:
        page.accept(absorber)
        for fragment in absorber.text_fragments:
            text += fragment.text + "\n"
        absorber.text_fragments.clear()
    return text

print(extract_text_from_pdf(pdf_path))

8. textract:简化文本提取流程

textract是一个简洁高效的文本提取库,能够快速实现文本提取功能。

import textract

def extract_text_from_pdf(pdf_path):
    text = textract.process(pdf_path, method='pdfminer')
    print("-----------textract--------------------")
    print(text.decode('utf-8'))
    return text.decode('utf-8')

print(extract_text_from_pdf(pdf_path))

三、表格提取方法

1. pdfplumber:精确表格提取

pdfplumber不仅擅长文本提取,还能精确提取PDF中的表格数据。

import pdfplumber

with pdfplumber.open(pdf_path) as pdf:
    for page in pdf.pages:
        table = page.extract_table()
        if table:
            for row in table:
                print(row)

2. camelot:智能表格提取

camelot是一个专门用于从PDF中提取表格数据的Python库,它能够智能地识别PDF中的表格结构。

import camelot
import pandas as pd

def extract_tables_from_pdf(pdf_path):
    tables = camelot.read_pdf(pdf_path, flavor='stream')
    combined_df = pd.concat([table.df for table in tables])
    print("-----------camelot--------------------")
    return combined_df

tables_df = extract_tables_from_pdf(pdf_path)
print(tables_df)

3. aspose.pdf:高质量表格提取

aspose.pdf库也提供了表格提取的功能,适合商业应用。

from aspose.pdf import Document
from aspose.pdf.text import TextFragmentAbsorber

def extract_tables_from_pdf(pdf_path):
    pdf_doc = Document(pdf_path)
    absorber = TextFragmentAbsorber()
    tables = []
    for page in pdf_doc.pages:
        page.accept(absorber)
        for fragment in absorber.text_fragments:
            # 处理表格数据
            pass
    return tables

print(extract_tables_from_pdf(pdf_path))

四、总结

在PDF文本与表格提取的征程中,我们遇到了各种挑战,也探索了多种解决方案。每种方法都有其独特的适用场景和优缺点:

  • 简单文本提取:PyPDF2和fitz是不错的选择,简单易用,适合初学者快速上手。
  • 表格与精确文本提取:pdfplumber在处理表格方面表现出色,能够满足对文本和表格精确提取的需求。
  • 复杂PDF处理:pdfminer的灵活性使其能够应对复杂的PDF结构,适合需要深度自定义提取逻辑的场景。
  • 扫描PDF处理:pytesseract和PaddleOCR是OCR技术的代表,能够攻克扫描版PDF的难题,但对图像质量有一定要求。
  • 商业应用:aspose.pdf以其高质量的提取效果和稳定性,成为商业应用中的优选,尽管需要考虑成本因素。
  • 简化提取流程:textract通过封装底层逻辑,提供了简洁高效的文本提取方式,适合快速开发。
  • 智能表格提取:camelot在表格提取方面表现出色,能够智能识别PDF中的表格结构,提高提取效率。

到此这篇关于Python PDF识别之文本内容与表格提取方法总结的文章就介绍到这了,更多相关Python PDF识别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python pandas模块基础学习详解

    python pandas模块基础学习详解

    这篇文章主要介绍了python pandas模块基础学习详解的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python周期任务神器之Schedule模块使用详解

    Python周期任务神器之Schedule模块使用详解

    这篇文章主要为大家详细介绍了Python中的周期任务神器—Schedule模块的安装和初级、进阶使用方法,文中的示例代码讲解详细,需要的可以参考一下
    2022-04-04
  • Python递归函数返回值为None问题及解决

    Python递归函数返回值为None问题及解决

    文章主要讨论了在Python中使用递归函数时可能出现的问题,特别是递归函数的返回值不符合预期的情况,文章通过一个具体的例子说明了这个问题,并解释了如何通过在递归调用时加上return语句来解决这个问题
    2024-11-11
  • Python+Selenium实现表单自动填充和提交

    Python+Selenium实现表单自动填充和提交

    你是不是也厌倦了每天重复表单填写的工作,是时候让技术来帮助我们解放双手了,下面小编就为大家介绍一下如何使用Selenium和Python来自动填充和提交表单
    2023-09-09
  • 基于Python实现剪贴板历史管理工具

    基于Python实现剪贴板历史管理工具

    在数字化时代,剪贴板是我们日常工作中不可或缺的工具,这篇文章将为大家介绍一下如何使用Python实现一个剪贴板历史管理工具,感兴趣的小伙伴可以了解下
    2025-07-07
  • 使用Python pyqt打造任意Excel数据库系统

    使用Python pyqt打造任意Excel数据库系统

    这篇文章主要为大家详细介绍了如何使用Python pyqt打造一个任意Excel数据库系统,可以对用户上传的任意电子表格Excel文件均可完成复杂数据库查询,需要的小伙伴可以了解下
    2025-07-07
  • Python函数参数全攻略

    Python函数参数全攻略

    文章介绍了Python函数参数的六种类型:普通参数、可变位置参数、可变关键字参数、混合使用所有参数类型、参数解包以及参数顺序规则,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
    2025-11-11
  • 一篇文章带你了解python元组基础

    一篇文章带你了解python元组基础

    今天小编就为大家分享一篇关于Python中的元组介绍,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2021-08-08
  • Python如何在Word中生成多种不同类型的图表

    Python如何在Word中生成多种不同类型的图表

    Word 文档中插入图表不仅能直观呈现数据,还能提升文档的可读性和专业性,本文将介绍如何使用 Python 在 Word 文档中创建和自定义各种图表,需要的可以参考下
    2025-03-03
  • Python实现同时兼容老版和新版Socket协议的一个简单WebSocket服务器

    Python实现同时兼容老版和新版Socket协议的一个简单WebSocket服务器

    这篇文章主要介绍了Python实现同时兼容老版和新版Socket协议的一个简单WebSocket服务器,需要的朋友可以参考下
    2014-06-06

最新评论