用Python将PDF文件转存为图片的实现方法

 更新时间:2024年04月21日 10:02:45   作者:以山河作礼。  
在Python中,将PDF文件转换为图片格式使用专门的库来处理PDF文档,并将其每一页导出为常见的图像格式,这可以通过PyMuPDF库中的fitz模块或pdf2image库实现,本文给大家介绍了用Python将PDF文件转存为图片的方法,需要的朋友可以参考下

一·摘要

在Python中,将PDF文件转换为图片格式使用专门的库来处理PDF文档,并将其每一页导出为常见的图像格式。这可以通过PyMuPDF库中的fitz模块或pdf2image库实现,其中每个库都提供了将PDF页面渲染成位图的方法。一旦页面被转换成图像,就可以使用Pillow库(即PIL库的一个分支)将这些图像保存为PNG或JPEG文件。此过程不仅支持将包含文本和图形的PDF页面精确地转换为图像,而且还可以处理批量转换,使得整个转换过程可以自动化完成,非常适合需要从PDF中提取图像内容以用于报告、演示或网页发布的场景。

二·原理

在Python中将PDF文件转存为图片的过程通常依赖于渲染引擎,该引擎能够解析PDF文档的结构和内容,并将其转换成像素数据,即图像。

原理如下:

  1. 解析PDF:使用库(如PyMuPDFpdf2image)来读取PDF文件。这些库内部使用PDF解析器来理解PDF文件的结构,包括文本、图像、向量图形和页面布局信息。

  2. 页面渲染:库中的渲染引擎会处理PDF页面上的每个元素,如文字、线条和嵌入的图像,并将它们转换为可在屏幕上显示的像素数据。对于PyMuPDFget_pixmap()方法负责这个渲染过程;对于pdf2imageconvert_from_path()方法则用于将整个PDF页面渲染成图像。

  3. 图像保存:一旦PDF页面被渲染成位图,就可以使用像Pillow这样的图像处理库将其保存为常见的图像格式(如PNG或JPEG)。这个过程涉及到设置图像的分辨率、颜色深度和压缩级别。

  4. 循环处理:因为PDF文件可能包含多个页面,所以上述过程需要对每一页进行重复,直到所有页面都被转换成了对应的图像文件。

  5. 结果验证:转换完成后,需要检查生成的图像以确保它们准确地反映了原PDF页面的内容和布局。

这个过程不仅能够将PDF中的文本和矢量图形转换为像素图像,还能够处理其中嵌入的图像和图表。通过适当的设置,可以调整输出图像的质量、大小和格式,以适应不同的用途和需求。

三·流程

将PDF文件转换为图片的流程可以分为以下几个步骤:

  1. 安装库:首先,需要安装Python库来处理PDF和图像。常用的库包括PyMuPDF(也称为fitz)和pdf2image。可以使用pip命令进行安装,例如:pip install PyMuPDFpip install pdf2image

  2. 导入库:在Python脚本中,导入所需的库。对于PyMuPDF,导入fitz模块;对于pdf2image,导入pdf2image模块。

  3. 读取PDF文件:使用库提供的方法打开PDF文件。对于PyMuPDF,可以使用fitz.open()方法打开PDF文件;对于pdf2image,可以使用convert_from_path()方法打开PDF文件。

  4. 渲染PDF页面:遍历PDF的每一页,并将其渲染为图像。对于PyMuPDF,可以使用page.get_pixmap()方法将每一页渲染成位图;对于pdf2image,可以使用convert_from_path()方法将整个PDF页面渲染成图像。

  5. 保存图像:将渲染得到的图像保存到本地文件系统中。可以使用Pillow库(即PIL库的一个分支)的save()方法来保存图像。

  6. 循环处理:对PDF中的每一页重复步骤4和5,直到所有页面都转换为图像。

  7. 处理完毕:确保所有图像都已正确保存,并在需要时进行任何后续处理,如调整大小、裁剪或格式转换。

四·实战演示

因工作中的某些奇葩要求,需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以,但批量操作还是Python方便,所谓搞定办公自动化,Python出山,一统天下;Python出征,寸草不生。

这里先导入fitz库,用于将PDF文件的页面提取成像素信息(图片)。再导入glob库,用于获取后缀为".pdf"的文件的文件名。os库可新建文件夹

#批量将PDF文件转为图片
import fitz
import glob
import os

image_path = "图片\\" #存放图片的文件夹
PDFfiles = glob.glob("PDF文件\\*.pdf") #获取所有pdf文件的文件名
for PDFfile in PDFfiles: #遍历所有PDF文件
    PDFdoc = fitz.open(PDFfile) #读取PDF文件
    folder_name = PDFfile.split("\\")[-1].split(".")[0] #按源文件名新建文件夹
    for pg in range(PDFdoc.pageCount): #根据PDF的页数,按页提取图片        
        page = PDFdoc[pg]
        #增强图片分辨率
        zoom_x = 3 #水平方向
        zoom_y = 3 #垂直方向
        mat = fitz.Matrix(zoom_x, zoom_y) 
        pix = page.getPixmap(matrix=mat)  
        #按原PDF名称新建文件夹并按顺序保存图片
        if not os.path.exists(image_path+folder_name):#判断文件夹是否已存在
            os.makedirs(image_path+folder_name)#不存在则新建,存在就跳过这行
        pix.writeImage(image_path+folder_name + "\\{}.png".format(str(pg+1))) #按PDF中的页面顺序命名并保存图片

以上,我们先将所有待处理的PDF文件放入“PDF文件夹”,然后通过glob.glob(“PDF文件\*.pdf”)搜索并抓取所有以".pdf"为后缀的文件,并存入变量PDFfiles中。

结果如下所示:

PDFfiles

然后,遍历PDFfiles中的所有PDF文件,使用fitz.open()读取。fitz.open()用于创建PDF文件中页面的像素映射(pixel maps),即用像素来表示页面信息。然后按PDF文件名命名一个新的文件夹,以便储存图片。比如给“收货记录.pdf”文件建一个名字为“收货记录”的文件夹,专门储存关于它的页面的图片。随后用for循环,根据PDF的页数,按页提取图片。将每页的信息存入page变量,它的type 是fitz.fitz.Page,即一页像素文件。为了让图片看起来更清晰,需要增强图片的分辨率,设定图片水平及垂直方向的增强倍数,传入Matrix。Matrix用于提升即将保存的图片的分辨率,分辨率的提升倍数为zoom_x与zoom_y的乘积。倍数越大,图片越清晰,当然占用空间也越大。这个参数可根据实际要求调整。然后将Matrix存入mat,传入getPixmap()。getPixmap()用于控制图片分辨率、色域(比如生成灰度图像或带有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。由于其它都不需要专门设定,所以只增强其分辨率。

一页图片处理好后,就需要保存图片了。先通过os.path.exists判断一下需要的文件夹是否存在,若不存在就通过os.makedirs创建。然后用pix.writeImage按页码编号写入并保存图片。

以上就是用Python将PDF文件转存为图片的方法的详细内容,更多关于Python PDF文件转图片的资料请关注脚本之家其它相关文章!

相关文章

  • Django CSRF跨站请求伪造防护过程解析

    Django CSRF跨站请求伪造防护过程解析

    这篇文章主要介绍了Django CSRF跨站请求伪造防护过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python实现随机森林算法的示例代码

    Python实现随机森林算法的示例代码

    随机森林的英文是 Random Forest,英文简写是 RF,也是常用的人工智能算法,本文为大家介绍了Python实现随机森林算法的示例代码,希望对大家有所帮助
    2023-06-06
  • 一篇文章带你了解python中的typing模块和类型注解

    一篇文章带你了解python中的typing模块和类型注解

    这篇文章主要为大家详细介绍了python中的类型注解,使用typing模块,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-02-02
  • python使用__slots__让你的代码更加节省内存

    python使用__slots__让你的代码更加节省内存

    如果要限制添加的属性,例如,Student类只允许添加 name、gender和score 这3个属性,就可以利用Python的一个特殊的slots来实现。这篇文章主要给大家介绍了关于python如何使用__slots__让你的代码更加节省内存的相关资料,需要的朋友可以参考下
    2018-09-09
  • Python IO文件管理的具体使用

    Python IO文件管理的具体使用

    我们可以使用python来操作文件,比如读取文件内容、写入新的内容等,本文主要介绍了Python IO文件管理的具体使用,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • python框架中flask知识点总结

    python框架中flask知识点总结

    这篇文章给大家分享了关于学习python框架中flask知识点的总结内容,有兴趣的朋友们可以学习下。
    2018-08-08
  • Matplotlib实战之堆叠面积图绘制详解

    Matplotlib实战之堆叠面积图绘制详解

    堆叠面积图和面积图都是用于展示数据随时间变化趋势的统计图表,但它们的特点有所不同,堆叠面积图既能看到各数据系列的走势,又能看到整体的规模,下面我们就来看看如何绘制堆叠面积图吧
    2023-08-08
  • python如何查找列表中元素的位置

    python如何查找列表中元素的位置

    这篇文章主要介绍了python如何查找列表中元素的位置,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • pycharm配置anaconda环境时找不到python.exe的两种解决办法

    pycharm配置anaconda环境时找不到python.exe的两种解决办法

    如果你在Anaconda中创建了虚拟环境,但是无法找到python.exe,可能是因为虚拟环境的Python路径没有添加到系统环境变量中,这篇文章主要给大家介绍了关于pycharm配置anaconda环境时找不到python.exe的两种解决办法,需要的朋友可以参考下
    2024-07-07
  • Python实现将多个文件的名称或后缀名由大写改为小写

    Python实现将多个文件的名称或后缀名由大写改为小写

    这篇文章主要介绍了如何基于Python语言实现将多个文件的名称或后缀名由大写字母修改为小写,文中的示例代码讲解详细,感兴趣的可以了解下
    2023-09-09

最新评论