使用Python进行PDF文档处理的常见操作

 更新时间:2024年09月08日 10:30:16   作者:杰哥在此  
使用 Python 进行 PDF 文档处理可以通过多种库来实现,包括 PyPDF2、pdfplumber、reportlab、pdfminer 等,这些库可以处理不同的 PDF 任务,以下是几种常见操作及对应的库和代码示例,感兴趣的小伙伴跟着小编一起来看看吧

引言

使用 Python 进行 PDF 文档处理可以通过多种库来实现,包括 PyPDF2、pdfplumber、reportlab、pdfminer 等。这些库可以处理不同的 PDF 任务,例如 提取文本、拆分合并 PDF、修改 PDF、生成 PDF 等。以下是几种常见操作及对应的库和代码示例。

1. 安装常用库

首先,安装常用的 PDF 处理库:

pip install PyPDF2 pdfplumber reportlab

2. 提取 PDF 文本

PyPDF2 和 pdfplumber 都可以用于提取 PDF 文本。PyPDF2 更轻量,但有时处理复杂的 PDF 格式效果较差,而 pdfplumber 更加适合处理表格等复杂结构的 PDF。

使用 PyPDF2 提取文本

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提取每一页的文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 页的文本:\n{text}")

使用 pdfplumber 提取文本

pdfplumber 更适合处理结构化数据,尤其是表格。

import pdfplumber

# 打开 PDF 文件
with pdfplumber.open('sample.pdf') as pdf:
    for page_num in range(len(pdf.pages)):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 页的文本:\n{text}")

3. 合并与拆分 PDF 文件

使用 PyPDF2 合并 PDF 文件

可以将多个 PDF 文件合并为一个文件。

import PyPDF2

pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merger = PyPDF2.PdfMerger()

for pdf in pdf_files:
    merger.append(pdf)

# 保存合并后的 PDF 文件
with open('merged_output.pdf', 'wb') as output_file:
    merger.write(output_file)

使用 PyPDF2 拆分 PDF 文件

将 PDF 文件拆分为单独的页面。

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 按页拆分并保存
    for page_num in range(len(reader.pages)):
        writer = PyPDF2.PdfWriter()
        writer.add_page(reader.pages[page_num])
        
        with open(f'split_page_{page_num + 1}.pdf', 'wb') as output_file:
            writer.write(output_file)

4. 创建和修改 PDF

使用 ReportLab 创建 PDF 文件

reportlab 是一个功能强大的库,可以用来生成新的 PDF 文件,支持插入文本、图片、图形等。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

# 创建 PDF 文件
c = canvas.Canvas("output.pdf", pagesize=letter)
c.drawString(100, 750, "Hello, this is a PDF created with ReportLab!")

# 创建矩形
c.rect(100, 700, 400, 100)

# 保存 PDF
c.showPage()
c.save()

使用 ReportLab 插入图片

你可以使用 reportlab 插入图片到 PDF 中。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("output_with_image.pdf", pagesize=letter)
c.drawString(100, 750, "This is a PDF with an image:")

# 插入图片
c.drawImage("image.png", 100, 600, width=200, height=150)

c.showPage()
c.save()

5. 提取 PDF 表格

pdfplumber 提供了提取 PDF 中表格的功能,非常适合处理含有表格的文档。

import pdfplumber

# 打开 PDF 文件
with pdfplumber.open('table_sample.pdf') as pdf:
    first_page = pdf.pages[0]
    
    # 提取表格数据
    tables = first_page.extract_table()
    
    # 打印提取到的表格数据
    for row in tables:
        print(row)

6. PDF 文档加密与解密

使用 PyPDF2 加密 PDF 文件

你可以加密 PDF 文件,防止未经授权的访问。

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()

    for page_num in range(len(reader.pages)):
        writer.add_page(reader.pages[page_num])

    # 设置密码
    writer.encrypt(user_password='user123', owner_password='owner123')

    with open('encrypted_output.pdf', 'wb') as output_file:
        writer.write(output_file)

使用 PyPDF2 解密 PDF 文件

如果 PDF 文件已加密,解密并提取文本的方法如下:

import PyPDF2

# 打开加密的 PDF 文件
with open('encrypted_output.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提供密码
    reader.decrypt('user123')
    
    # 提取文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        print(page.extract_text())

7. PDF 页面旋转

你可以旋转 PDF 的某些页面,以下是旋转页面的示例:

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()
    
    # 旋转每页 90 度
    for page in reader.pages:
        page.rotate_clockwise(90)
        writer.add_page(page)
    
    # 保存旋转后的 PDF 文件
    with open('rotated_output.pdf', 'wb') as output_file:
        writer.write(output_file)

总结

Python 提供了多个强大的库来处理 PDF 文档。根据具体需求,选择适合的库来完成任务:

  • PyPDF2:适合基本的 PDF 操作,如合并、拆分、加密、旋转等。
  • pdfplumber:适合复杂的文本和表格提取。
  • reportlab:用于生成和修改 PDF 文件,支持文本、图像和图形的绘制。

通过这些工具,你可以轻松地处理 PDF 文档的各种操作,从文本提取到生成和修改文档。

到此这篇关于使用Python进行PDF文档处理的常见操作的文章就介绍到这了,更多相关Python PDF文档处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • pytorch dataloader 取batch_size时候出现bug的解决方式

    pytorch dataloader 取batch_size时候出现bug的解决方式

    今天小编就为大家分享一篇pytorch dataloader 取batch_size时候出现bug的解决方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • python神经网络Pytorch中Tensorboard函数使用

    python神经网络Pytorch中Tensorboard函数使用

    这篇文章主要为大家介绍了python神经网络Pytorch中Tensorboard常用函数的使用示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • python求两个时间的时间差(实例代码)

    python求两个时间的时间差(实例代码)

    我们在用python进行分析的时候,可能会碰到计算两个日期的时间差。下面为大家介绍一下如何计算两个时间的时间差,需要的朋友可以参考下
    2022-11-11
  • Python基础之输入,输出与高阶赋值详解

    Python基础之输入,输出与高阶赋值详解

    这篇文章主要为大家介绍了Python基础之输入,输出与高阶赋值,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-11-11
  • 基于Python编写一个根据姓名测性别的小程序

    基于Python编写一个根据姓名测性别的小程序

    这篇文章主要为大家介绍了如何利用Python编写一款根据中文名能猜测性别的一款界面化的小程序,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2022-03-03
  • Python的多态性实例分析

    Python的多态性实例分析

    这篇文章主要介绍了Python的多态性,以实例形式深入浅出的分析了Python在面向对象编程中多态性的原理与实现方法,需要的朋友可以参考下
    2015-07-07
  • 懒人必备Python代码之自动发送邮件

    懒人必备Python代码之自动发送邮件

    在传统的工作中,发送会议纪要是一个比较繁琐的任务,需要手动输入邮件内容、收件人、抄送人等信息,每次发送都需要重复操作,不仅费时费力,而且容易出现疏漏和错误。本文就来用Python代码实现这一功能吧
    2023-05-05
  • 使用Python更换外网IP的方法

    使用Python更换外网IP的方法

    这篇文章主要介绍了使用Python更换外网IP的方法,,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07
  • Python 中将值附加到集合的操作方法

    Python 中将值附加到集合的操作方法

    这篇文章主要介绍了Python 中将值附加到集合的操作方法,通过使用 add() 方法或 update() 方法,你可以向 Python 中的集合中添加元素,在添加元素时,需要注意不允许重复元素和集合是无序的,本文通过示例代码给大家介绍的非常详细,需要的朋友可以参考下
    2023-05-05
  • Python 静态导入与动态导入的实现示例

    Python 静态导入与动态导入的实现示例

    Python静态导入和动态导入是指导入模块或模块内部函数的两种方式,本文主要介绍了Python 静态导入与动态导入的实现示例,具有一定的参考价值,感兴趣的可以了解一下
    2024-05-05

最新评论