Python利用PyPDF2库处理PDF文件的基本操作

 更新时间:2023年11月28日 08:50:13   作者:涛哥聊Python  
PyPDF2是一个Python库,用于处理PDF文件,包括合并、分割、旋转和提取文本等操作,它是一个功能强大且灵活的工具,可用于自动化处理PDF文件,适用于各种应用,从文档管理到数据分析,本文将深入介绍PyPDF2库,掌握如何利用它来处理PDF文件,需要的朋友可以参考下

安装PyPDF2

在开始之前,需要安装PyPDF2库。使用pip进行安装:

pip install PyPDF2

基本PDF操作

1. 合并PDF文件

使用PyPDF2合并多个PDF文件为一个文件。

以下是一个示例代码:

import PyPDF2

pdf1 = open("file1.pdf", "rb")
pdf2 = open("file2.pdf", "rb")
output = open("merged.pdf", "wb")

pdf_reader1 = PyPDF2.PdfFileReader(pdf1)
pdf_reader2 = PyPDF2.PdfFileReader(pdf2)
pdf_writer = PyPDF2.PdfFileWriter()

for page_num in range(pdf_reader1.numPages):
    page = pdf_reader1.getPage(page_num)
    pdf_writer.addPage(page)

for page_num in range(pdf_reader2.numPages):
    page = pdf_reader2.getPage(page_num)
    pdf_writer.addPage(page)

pdf_writer.write(output)

pdf1.close()
pdf2.close()
output.close()

2. 分割PDF文件

分割一个PDF文件为多个文件。

以下是一个示例代码:

import PyPDF2

pdf = open("source.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf)

for page_num in range(pdf_reader.numPages):
    pdf_writer = PyPDF2.PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page_num))
    output = open(f"page_{page_num + 1}.pdf", "wb")
    pdf_writer.write(output)
    output.close()

pdf.close()

3. 旋转PDF页面

旋转PDF页面。

以下是一个示例代码:

import PyPDF2

pdf = open("file.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf)
pdf_writer = PyPDF2.PdfFileWriter()

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    page.rotateClockwise(90)  # 旋转90度
    pdf_writer.addPage(page)

output = open("rotated.pdf", "wb")
pdf_writer.write(output)

pdf.close()
output.close()

4. 提取PDF文本

提取PDF中的文本。

以下是一个示例代码:

import PyPDF2

pdf = open("file.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf)

text = ""
for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    text += page.extractText()

print(text)

高级PDF操作

1. 添加水印

在PDF页面上添加水印。

以下是一个示例代码:

import PyPDF2

pdf = open("file.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf)
pdf_writer = PyPDF2.PdfFileWriter()

watermark = PyPDF2.PdfFileReader(open("watermark.pdf", "rb"))

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    page.mergePage(watermark.getPage(0))
    pdf_writer.addPage(page)

output = open("watermarked.pdf", "wb")
pdf_writer.write(output)

pdf.close()
output.close()

2. 加密PDF文件

使用PyPDF2来加密PDF文件。

以下是一个示例代码:

import PyPDF2

pdf = open("file.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf)
pdf_writer = PyPDF2.PdfFileWriter()

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    pdf_writer.addPage(page)

pdf_writer.encrypt("password", "owner_password")
output = open("encrypted.pdf", "wb")
pdf_writer.write(output)

pdf.close()
output.close()

3. 提取图像

使用PyPDF2提取PDF中的图像。

以下是一个示例代码:

import PyPDF2

pdf = open("file.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf)

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    xObject = page['/Resources']['/XObject'].get_object()
    for obj in xObject:
        if xObject[obj]['/Subtype'] == '/Image':
            img = xObject[obj]
            data = img.get_data()
            with open(f"image_{page_num + 1}.jpg", "wb") as f:
                f.write(data)

pdf.close()

总结

PyPDF2是一个功能丰富的Python库,用于处理PDF文件。无论是需要合并、分割、旋转、提取文本,还是进行更高级的操作如添加水印、加密、提取图像,PyPDF2都能满足需求。

通过本文的介绍和示例代码,可以更好地掌握PyPDF2,将其应用于各种PDF文件处理任务中,提高工作效率,简化操作。

以上就是Python利用PyPDF2库处理PDF文件的基本操作的详细内容,更多关于Python PyPDF2处理PDF文件的资料请关注脚本之家其它相关文章!

相关文章

  • python 服务器运行代码报错ModuleNotFoundError的解决办法

    python 服务器运行代码报错ModuleNotFoundError的解决办法

    这篇文章主要介绍了python 服务器运行代码报错ModuleNotFoundError的解决办法,帮助大家排除错误,正确的运行代码,感兴趣的朋友可以了解下
    2020-09-09
  • 浅谈numpy 函数里面的axis参数的含义

    浅谈numpy 函数里面的axis参数的含义

    这篇文章主要介绍了numpy 函数里面的axis参数的含义,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05
  • 从入门到精通详解Python中User-Agent的使用终极指南

    从入门到精通详解Python中User-Agent的使用终极指南

    User-Agent是HTTP协议头部的一个字段,用于标识客户端的身份信息,在Python网络编程中,User-Agent(用户代理)扮演着至关重要的角色,下面小编就和大家详细介绍一下Python中User-Agent的使用吧
    2026-05-05
  • Python Map函数保姆级使用教程

    Python Map函数保姆级使用教程

    map是python内置函数,会根据提供的函数对指定的序列做映射,这篇文章主要介绍了python中的map函数语法详解,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • Python文件读写处理日常任务终极工具实例

    Python文件读写处理日常任务终极工具实例

    Python文件的读写操作时,有很多需要考虑的细节,这包括文件打开方式、读取和写入数据的方法、异常处理等,在本文中,将深入探讨Python中的文件操作,旨在提供全面的指南,帮你充分了解Python文件的读写
    2023-11-11
  • 使用python把json文件转换为csv文件

    使用python把json文件转换为csv文件

    这篇文章主要介绍了使用python把json文件转换为csv文件,帮助大家更好的利用python处理数据,感兴趣的朋友可以了解下
    2021-03-03
  • Python基于SMTP发送邮件的方法

    Python基于SMTP发送邮件的方法

    这篇文章主要介绍了Python基于SMTP 发送邮件的方法,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • Python的Django框架中的URL配置与松耦合

    Python的Django框架中的URL配置与松耦合

    这篇文章主要介绍了Python的Django框架中的URL配置与松耦合,文中简单讲解了这一松耦合原则,需要的朋友可以参考下
    2015-07-07
  • 使用python实现三维图可视化

    使用python实现三维图可视化

    这篇文章主要介绍了使用python实现三维图可视化,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • 从零开发一个Python证件照抠图程序

    从零开发一个Python证件照抠图程序

    在这个数字化时代,证件照的需求无处不在,作为程序员,我们可以开发一个简单易用的证件照抠图工具,下面我们就来看看如何使用Python从零开发一个抠图小程序吧
    2025-06-06

最新评论