python实现PDF文档提取,分割与合并操作

 更新时间:2026年02月16日 08:13:23   作者:夏末蝉未鸣01  
这篇文章主要为大家详细介绍了python进行PDF文档提取,分割与合并等操作的实现方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下

一、PDF提取文字/转图片

提取文字和转图片使用的是fitz模块,模块安装:

pip install PyMuPDF

提取文字

import fitz
 

pdf = fitz.open('xxxx.pdf')  # xxxx.pdf是pdf文件名或路径
pages = pdf.page_count  # 获取pdf页数
page = pdf[n]  # 获取pdf第n页,n为页码,从0开始

x = page.rect[2]  # 获取页宽
y = page.rect[3]  # 获取页高

content = page.get_text()  # 提取这一整页的文字
# 获取指定区域文字
content = page.get_text(clip=(x1, y1, x2, y2))  # x1为指定区域左上角x坐标,y1区域左上角y坐标,x2为区域右下角x坐标,y2区域右下角y坐标

转图片

import fitz
 

pdf = fitz.open('xxxx.pdf')  # xxxx.pdf是pdf文件名或路径
page = pdf[n]  # 获取pdf第n页,n为页码,从0开始

z_x = 3  # 宽度放大比例
z_y = 3  # 高度放大比例
mat = fitz.Matrix(z_x, z_y)
pix = page.get_pixmap(matrix=mat)
pix.save('xxxx.png')  # 保存图片为xxxx.png

二、分割、合并PDF文档

2.1 使用PyPDF2模块

模块安装:

pip install PyPDF2

分割、合并PDF

import PyPDF2


pdf = PyPDF2.PdfReader('xxxx.pdf')  # 打开名为xxxx.pdf的PDF文档
pages = pdf.pages  # PDF总页数

writer = PyPDF2.PdfWriter()  # 创建新的PDF变量

writer.add_page(pdf.pages[0])  # 将第1页分割到新的PDF
writer.add_page(pdf.pages[1])  # 将第2页分割到新的PDF
with open('xxxx2.pdf', 'wb') as output_pdf:  # 将分割出来的页保存为新的PDF文件xxxx2.pdf
    writer.write(output_pdf)

writer2 = PyPDF2.PdfWriter()  # 创建新的PDF变量
writer2.add_page(pdf.pages[2])  # 将第3页分割到新的PDF
writer2.add_page(pdf.pages[99])  # 将第100页分割到新的PDF
with open('xxxx3.pdf', 'wb') as output_pdf:  # 将分割出来的页保存为新的PDF文件xxxx3.pdf
    writer2.write(output_pdf)

2.2 使用fitz模块

模块安装:

pip install PyMuPDF

示例:

import fitz


writer = fitz.open()  # 创建一个空白pdf

# 打开1.pdf,并写入新创建的pdf中
pdf = fitz.open('1.pdf') 
writer.insert_pdf(pdf, start_at=writer.page_count)
pdf.close()
# 打开2.pdf,并将第1-3页写入新创建的pdf中(页码从0起算)
pdf = fitz.open('2.pdf')
writer.insert_pdf(pdf, start_at=writer.page_count, from_page=1, to_page=3)
pdf.close()
# 打开3.pdf,并写入新创建的pdf中
pdf = fitz.open('3.pdf')
writer.insert_pdf(pdf, start_at=writer.page_count)
pdf.close()

writer.save('xxxx.pdf')  # 保存为xxxx.pdf
writer.close()

分割跟合并PDF的原理是一样的,前者是打开一个PDF文档,创建并保存为多个PDF文档;后者是打开多个PDF文档,创建并保存为一个PDF文档。

使用PyPDF2模块合并pdf文件时常常遇到乱码问题,因此本人更推荐使用fitz模块。

到此这篇关于python实现PDF文档提取,分割与合并操作的文章就介绍到这了,更多相关python PDF文档操作内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现根据主机名字获得所有ip地址的方法

    python实现根据主机名字获得所有ip地址的方法

    这篇文章主要介绍了python实现根据主机名字获得所有ip地址的方法,涉及Python解析IP地址的相关技巧,需要的朋友可以参考下
    2015-06-06
  • python自定义分页器的实现

    python自定义分页器的实现

    这篇文章主要介绍了python自定义分页器的实现,通过自定义分页器封装展开主题并对其实用方法简单介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-04-04
  • Python中datetime模块参考手册

    Python中datetime模块参考手册

    Python处理时间和日期方面的模块,主要就是datetime、time、calendar三个模块的使用。下面这篇文章主要给大家介绍的是Python中的datetime模块,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-01-01
  • Python爬虫基础之selenium库的用法总结

    Python爬虫基础之selenium库的用法总结

    今天带大家来学习selenium库的使用方法及相关知识总结,文中非常详细的介绍了selenium库,对正在学习python的小伙伴很有帮助,需要的朋友可以参考下
    2021-05-05
  • Pandas出现KeyError的问题解决及分析

    Pandas出现KeyError的问题解决及分析

    本文主要介绍了Pandas出现KeyError的问题解决及分析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • python获得文件创建时间和修改时间的方法

    python获得文件创建时间和修改时间的方法

    这篇文章主要介绍了python获得文件创建时间和修改时间的方法,涉及Python针对文件属性的相关操作技巧,需要的朋友可以参考下
    2015-06-06
  • Python实现全排列的打印

    Python实现全排列的打印

    这篇文章主要为大家详介绍了Python实现全排列的打印的相关代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-08-08
  • 使用Django的模版来配合字符串翻译工作

    使用Django的模版来配合字符串翻译工作

    这篇文章主要介绍了使用Django的模版来配合字符串翻译工作,Django是最具人气的Python开发框架,需要的朋友可以参考下
    2015-07-07
  • 详解在python中如何使用zlib模块进行数据压缩和解压缩

    详解在python中如何使用zlib模块进行数据压缩和解压缩

    Python有一些内置库用于处理数据压缩和解压缩,其中一个就是zlib模块,这个模块为DEFLATE压缩算法和相关的gzip(文件格式)提供了支持,在这篇文章中,我们将深入探讨如何使用zlib模块进行数据压缩和解压缩
    2023-06-06
  • Python3自定义json逐层解析器代码

    Python3自定义json逐层解析器代码

    这篇文章主要介绍了Python3自定义json逐层解析器代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05

最新评论