Python利用fitz库提取pdf中的图片

 更新时间:2023年05月31日 09:35:56   作者:空空star  
Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像,它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释,本文主要介绍了如何通过Python的fitz库提取pdf中的图片,需要的朋友可以参考下

一、fitz库是什么?

Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释。此外,Fitz库还提供了一些图像处理功能,如旋转、裁剪、缩放、调整亮度、对比度和色彩平衡等。这些功能使得Fitz库成为一个非常实用的图像处理工具。

二、安装fitz库

pip install fitz

    三、查看fitz库版本

    pip show fitz

    Name: fitz
    Version: 0.0.1.dev2
    Summary: Fitz: Workflow Mangement for neuroimaging data.
    Home-page: http://github.com/kastman/fitz
    Author: Erik Kastman
    Author-email: erik.kastman@gmail.com
    License: BSD (3-clause)
    Requires: configobj, configparser, httplib2, nibabel, nipype, numpy, pandas, pyxnat, scipy
    Required-by:

    四、pymupdf库是什么?

    使用fitz,需要安装pymupdf库。

     PyMuPDF 是一个基于 Python 的开源 PDF 处理库,提供了一系列的 PDF 文档处理功能,如读取、编辑、创建、转换等。它是 MuPDF 的 Python 绑定,MuPDF 是一款轻量级的开源 PDF 文档渲染引擎,支持多种平台和多种文件格式。
    PyMuPDF 具有快速、高效、简单易用等特点,可以用于 PDF 文档的自动化处理和批量处理,比如提取文本、提取图片、添加或修改书签、添加或修改注释、合并 PDF 文件、切割 PDF 文件、提取 PDF 页面等。同时,它还支持 PDF 渲染成图片,方便快速预览和生成缩略图。
    总之,PyMuPDF 是一个非常实用的 Python PDF 处理库,适用于多种场景,如数据处理、文档处理、自动化办公等。

    五、安装pymupdf库

    pip install pymupdf

    六、查看pymupdf库版本

    pip show pymupdf

    Name: PyMuPDF
    Version: 1.22.3
    Summary: Python bindings for the PDF toolkit and renderer MuPDF
    Home-page: https://github.com/pymupdf/PyMuPDF
    Author: Artifex
    Author-email: support@artifex.com
    License: GNU AFFERO GPL 3.0
    Requires:
    Required-by:

    七、fitz和pymupdf是什么关系?

    fitz 是 Pymupdf 库的一个模块,它是 Pymupdf 的主要模块之一,也是最常用的模块。fitz 模块提供了对 PDF 文档的基本操作,如打开、读取、编辑、保存等。

    八、提取pdf中的图片

    1.引入库

    import fitz

    2.定义pdf路径

    local = '/Users/kkstar/Downloads/'

    3.打开PDF文件

    pdf_doc = fitz.open(local+'demo_pic.pdf')

    4.遍历所有页面

    for pg in range(pdf_doc.page_count):
        page = pdf_doc[pg]

    5.获取页面上所有图像

    image_list = page.get_images()

    6.遍历所有图像

    for img in image_list:

    7.获取图像的XREF编号和图像数据      

    xref = img[0]
    pix = fitz.Pixmap(pdf_doc, xref)

    8.如果图像是RGB颜色空间,则保存为PNG文件     

    if str(fitz.csRGB) == str(pix.colorspace):
    img_path = local + f'image{pg+1}_{xref}.png'
    pix.save(img_path)

    总结

    pdf

    提取图片效果

    以上就是Python利用fitz库提取pdf中的图片的详细内容,更多关于Python fitz库提取pdf中图片的资料请关注脚本之家其它相关文章!

    相关文章

    • 安装python-docx后,无法在pycharm中导入的解决方案

      安装python-docx后,无法在pycharm中导入的解决方案

      这篇文章主要介绍了安装python-docx后,无法在pycharm中导入的解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2021-03-03
    • PyTorch中Tensor的维度变换实现

      PyTorch中Tensor的维度变换实现

      这篇文章主要介绍了PyTorch中Tensor的维度变换实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
      2019-08-08
    • 有趣的Python图片制作之如何用QQ好友头像拼接出里昂

      有趣的Python图片制作之如何用QQ好友头像拼接出里昂

      这篇文章主要介绍了有趣的Python图片制作之如何用QQ好友头像拼接出里昂,本文通过截图实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
      2020-04-04
    • python使用pil库实现图片合成实例代码

      python使用pil库实现图片合成实例代码

      这篇文章主要介绍了python PIL实现图片合成实例代码,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
      2018-01-01
    • python模块常用用法实例详解

      python模块常用用法实例详解

      由于平时习惯,strftime比较常用,strptime和它是反操作。这篇文章主要介绍了python模块常用用法,需要的朋友可以参考下
      2019-10-10
    • python手机号前7位归属地爬虫代码实例

      python手机号前7位归属地爬虫代码实例

      这篇文章主要介绍了python手机号前7位归属地爬虫代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
      2020-03-03
    • django中账号密码验证登陆功能的实现方法

      django中账号密码验证登陆功能的实现方法

      这篇文章主要介绍了django中账号密码验证登陆功能的实现方法,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
      2019-07-07
    • python 求某条线上特定x值或y值的点坐标方法

      python 求某条线上特定x值或y值的点坐标方法

      今天小编就为大家分享一篇python 求某条线上特定x值或y值的点坐标方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2019-07-07
    • python过滤中英文标点符号的实例代码

      python过滤中英文标点符号的实例代码

      今天小编就为大家分享一篇python过滤中英文标点符号的实例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2019-07-07
    • Python数据分析Numpy中常用相关性函数

      Python数据分析Numpy中常用相关性函数

      这篇文章主要为大家介绍了Python数据分析Numpy中常用相关性函数讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
      2022-06-06

    最新评论