Python使用PyPDF2操作PDF的详细教程

 更新时间:2025年02月28日 09:44:46   作者:morris131  
PyPDF2是一个用于处理PDF文件的Python库,可以读取、合并、拆分、裁剪和修改PDF文件,以下是一些使用PyPDF2的基本示例,包括如何安装该库以及执行一些常见的PDF操作,需要的朋友可以参考下

安装PyPDF2

首先,你需要安装PyPDF2库。你可以使用pip来安装它:

pip install PyPDF2

读取PDF文件

读取PDF文件并打印其页数:

import PyPDF2

# 使用PyPDF2读取pdf文件
if __name__ == '__main__':
    # 打开 PDF 文件
    with open('example.pdf', 'rb') as file:
        # 创建一个 PDF 阅读器对象
        reader = PyPDF2.PdfReader(file)

        # 打印 PDF 文件中的页数
        print(f'Number of pages: {len(reader.pages)}')

提取文本

从PDF文件中提取文本:

import PyPDF2

# 使用PyPDF2读取pdf文本
if __name__ == '__main__':
    # 打开 PDF 文件
    with open('example.pdf', 'rb') as file:
        # 创建一个 PDF 阅读器对象
        reader = PyPDF2.PdfReader(file)

        # 提取第一页的文本
        page = reader.pages[0]
        text = page.extract_text()

        print(text)

拆分PDF文件

将PDF文件拆分为两个文件,一个文件包含奇数页,一个文件包含偶数页:

import PyPDF2

# 使用PyPDF2将PDF文件拆分为两个文件,一个文件包含奇数页,一个文件包含偶数页:
if __name__ == '__main__':
    # 创建一个 PDF 写入器对象
    odd_writer = PyPDF2.PdfWriter()
    even_writer = PyPDF2.PdfWriter()

    # 打开要拆分的 PDF 文件
    with open('example.pdf', 'rb') as file:
        reader = PyPDF2.PdfReader(file)

        page_num = 0
        for page in reader.pages:
            # print(page_num)
            if page_num % 2 == 0:
                # print(reader.pages[page_num])
                odd_writer.add_page(page)
            else:
                even_writer.add_page(page)
            page_num = page_num+1

        # 将拆分后的 PDF 写入到一个新文件
        with open('example1.pdf', 'wb') as output_pdf:
            odd_writer.write(output_pdf)

        # 将拆分后的 PDF 写入到一个新文件
        with open('example2.pdf', 'wb') as output_pdf:
            even_writer.write(output_pdf)

合并PDF文件

你可以将多个PDF文件合并为一个:

import PyPDF2

# 使用PyPDF2合并两个pdf文件
if __name__ == '__main__':
    # 打开要合并的 PDF 文件
    pdf_files = ['example1.pdf', 'example2.pdf']

    # 创建一个 PDF 写入器对象
    merger = PyPDF2.PdfMerger()

    for pdf_file in pdf_files:
        merger.append(pdf_file)

    # 将合并后的 PDF 写入到一个新文件
    with open('merged.pdf', 'wb') as output_pdf:
        merger.write(output_pdf)

裁剪PDF页面

PyPDF2并不直接支持裁剪页面,但你可以通过提取页面的部分内容并创建一个新的页面来实现这一功能。以下是一个简单的示例,演示如何裁剪页面的上半部分:

import PyPDF2

# 使用PyPDF2裁剪PDF页面,通过提取页面的部分内容并创建一个新的页面来实现这一功能
if __name__ == '__main__':
    # 打开 PDF 文件
    with open('example.pdf', 'rb') as file:
        reader = PyPDF2.PdfReader(file)

        # 创建一个 PDF 写入器对象
        writer = PyPDF2.PdfWriter()

        # 获取第一页
        page = reader.pages[0]

        # 定义裁剪区域(左下角和右上角的坐标)
        # 表示裁剪区域的左下角和右上角坐标
        cropbox = page.cropbox
        x_lower_left = cropbox.lower_left[0]
        y_lower_left = cropbox.lower_left[1] + (cropbox.upper_right[1] - cropbox.lower_left[1]) / 2
        x_upper_right = cropbox.upper_right[0]
        y_upper_right = cropbox.upper_right[1]

        # 设置裁剪区域(左下x, 左下y, 右上x, 右上y)
        page.cropbox.lower_left = (x_lower_left, y_lower_left)
        page.cropbox.upper_right = (x_upper_right, y_upper_right)
        writer.add_page(page)

        # 将裁剪后的 PDF 写入到一个新文件
        with open('cropped_example.pdf', 'wb') as output_pdf:
            writer.write(output_pdf)

加密PDF

from PyPDF2 import PdfWriter
from PyPDF2 import PdfReader

# 使用PyPDF2加密pdf
if __name__ == '__main__':
    writer = PdfWriter()
    with open('example.pdf', 'rb') as file:
        reader = PdfReader(file)
        writer.add_page(reader.pages[0])

    # 设置加密(128位 AES)
    writer.encrypt(
        user_password="password123",
        owner_password=None,
        use_128bit=True
    )

    with open("encrypted.pdf", "wb") as out_file:
        writer.write(out_file)

到此这篇关于Python使用PyPDF2操作PDF的详细教程的文章就介绍到这了,更多相关Python PyPDF2操作PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • MoviePy常用剪辑类及Python视频剪辑自动化

    MoviePy常用剪辑类及Python视频剪辑自动化

    这篇文章主要介绍了MoviePy常用剪辑类及Python视频剪辑自动化,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-12-12
  • Python使用django搭建web开发环境

    Python使用django搭建web开发环境

    这篇文章主要为大家详细介绍了Python使用django搭建web开发环境,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • python Pandas之DataFrame索引及选取数据

    python Pandas之DataFrame索引及选取数据

    这篇文章主要介绍了python Pandas之DataFrame索引及选取数据,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的朋友可以参考一下
    2022-07-07
  • Python之PyUnit单元测试实例

    Python之PyUnit单元测试实例

    这篇文章主要介绍了Python之PyUnit单元测试实例,是非常实用的技巧,需要的朋友可以参考下
    2014-10-10
  • pandas.DataFrame.iloc的具体使用详解

    pandas.DataFrame.iloc的具体使用详解

    本文主要介绍了pandas.DataFrame.iloc的具体使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • Anaconda最新版2023安装教程Spyder安装教程图文详解

    Anaconda最新版2023安装教程Spyder安装教程图文详解

    这篇文章主要介绍了Anaconda最新版2023安装教程Spyder安装教程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-05-05
  • python使用socket高效传输视频数据帧(连续发送图片)

    python使用socket高效传输视频数据帧(连续发送图片)

    本文主要介绍了python使用socket高效传输视频数据帧(连续发送图片),文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-10-10
  • Pytorch中的backward()多个loss函数用法

    Pytorch中的backward()多个loss函数用法

    这篇文章主要介绍了Pytorch中的backward()多个loss函数用法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • 如何用Python 实现全连接神经网络(Multi-layer Perceptron)

    如何用Python 实现全连接神经网络(Multi-layer Perceptron)

    这篇文章主要介绍了如何用Python 实现全连接神经网络(Multi-layer Perceptron),帮助大家更好的进行机器学习,感兴趣的朋友可以了解下
    2020-10-10
  • Python+OpenCV之直方图均衡化详解

    Python+OpenCV之直方图均衡化详解

    直方图均衡化是一种增强图像对比度的方法,其主要思想是将一副图像的直方图分布变成近似均匀分布,从而增强图像的对比度。本文将通过示例为大家讲讲直方图均衡化的原理与实现,感兴趣的可以了解一下
    2022-09-09

最新评论