Python利用fitz库提取pdf中的图片

 更新时间:2023年05月31日 09:35:56   作者:空空star  
Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像,它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释,本文主要介绍了如何通过Python的fitz库提取pdf中的图片,需要的朋友可以参考下

一、fitz库是什么?

Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释。此外,Fitz库还提供了一些图像处理功能,如旋转、裁剪、缩放、调整亮度、对比度和色彩平衡等。这些功能使得Fitz库成为一个非常实用的图像处理工具。

二、安装fitz库

pip install fitz

    三、查看fitz库版本

    pip show fitz

    Name: fitz
    Version: 0.0.1.dev2
    Summary: Fitz: Workflow Mangement for neuroimaging data.
    Home-page: http://github.com/kastman/fitz
    Author: Erik Kastman
    Author-email: erik.kastman@gmail.com
    License: BSD (3-clause)
    Requires: configobj, configparser, httplib2, nibabel, nipype, numpy, pandas, pyxnat, scipy
    Required-by:

    四、pymupdf库是什么?

    使用fitz,需要安装pymupdf库。

     PyMuPDF 是一个基于 Python 的开源 PDF 处理库,提供了一系列的 PDF 文档处理功能,如读取、编辑、创建、转换等。它是 MuPDF 的 Python 绑定,MuPDF 是一款轻量级的开源 PDF 文档渲染引擎,支持多种平台和多种文件格式。
    PyMuPDF 具有快速、高效、简单易用等特点,可以用于 PDF 文档的自动化处理和批量处理,比如提取文本、提取图片、添加或修改书签、添加或修改注释、合并 PDF 文件、切割 PDF 文件、提取 PDF 页面等。同时,它还支持 PDF 渲染成图片,方便快速预览和生成缩略图。
    总之,PyMuPDF 是一个非常实用的 Python PDF 处理库,适用于多种场景,如数据处理、文档处理、自动化办公等。

    五、安装pymupdf库

    pip install pymupdf

    六、查看pymupdf库版本

    pip show pymupdf

    Name: PyMuPDF
    Version: 1.22.3
    Summary: Python bindings for the PDF toolkit and renderer MuPDF
    Home-page: https://github.com/pymupdf/PyMuPDF
    Author: Artifex
    Author-email: support@artifex.com
    License: GNU AFFERO GPL 3.0
    Requires:
    Required-by:

    七、fitz和pymupdf是什么关系?

    fitz 是 Pymupdf 库的一个模块,它是 Pymupdf 的主要模块之一,也是最常用的模块。fitz 模块提供了对 PDF 文档的基本操作,如打开、读取、编辑、保存等。

    八、提取pdf中的图片

    1.引入库

    import fitz

    2.定义pdf路径

    local = '/Users/kkstar/Downloads/'

    3.打开PDF文件

    pdf_doc = fitz.open(local+'demo_pic.pdf')

    4.遍历所有页面

    for pg in range(pdf_doc.page_count):
        page = pdf_doc[pg]

    5.获取页面上所有图像

    image_list = page.get_images()

    6.遍历所有图像

    for img in image_list:

    7.获取图像的XREF编号和图像数据      

    xref = img[0]
    pix = fitz.Pixmap(pdf_doc, xref)

    8.如果图像是RGB颜色空间,则保存为PNG文件     

    if str(fitz.csRGB) == str(pix.colorspace):
    img_path = local + f'image{pg+1}_{xref}.png'
    pix.save(img_path)

    总结

    pdf

    提取图片效果

    以上就是Python利用fitz库提取pdf中的图片的详细内容,更多关于Python fitz库提取pdf中图片的资料请关注脚本之家其它相关文章!

    相关文章

    • 使用豆瓣提供的国内pypi源

      使用豆瓣提供的国内pypi源

      PyPI(Python Package Index)是python官方的第三方库的仓库,所有人都可以下载第三方库或上传自己开发的库到PyPI。PyPI推荐使用pip包管理器来下载第三方库。
      2017-07-07
    • django基于cors解决跨域请求问题详解

      django基于cors解决跨域请求问题详解

      这篇文章主要介绍了django基于cors解决跨域请求问题详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
      2019-08-08
    • keras 自定义loss层+接受输入实例

      keras 自定义loss层+接受输入实例

      这篇文章主要介绍了keras 自定义loss层+接受输入实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2020-06-06
    • Python xlrd/xlwt 创建excel文件及常用操作

      Python xlrd/xlwt 创建excel文件及常用操作

      这篇文章主要介绍了Python xlrd/xlwt 创建excel文件及常用操作,帮助大家更好的理解和使用python办公,感兴趣的朋友可以了解下
      2020-09-09
    • 在python中画正态分布图像的实例

      在python中画正态分布图像的实例

      今天小编就为大家分享一篇在python中画正态分布图像的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2019-07-07
    • Python多进程写入同一文件的方法

      Python多进程写入同一文件的方法

      今天小编就为大家分享一篇Python多进程写入同一文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2019-01-01
    • Python如何使用argparse模块处理命令行参数

      Python如何使用argparse模块处理命令行参数

      这篇文章主要介绍了Python如何使用argparse模块处理命令行参数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
      2019-12-12
    • Python编程根据字典列表相同键的值进行合并

      Python编程根据字典列表相同键的值进行合并

      这篇文章主要介绍了来学习Python字典列表根据相同键的值进行合并的操作方法,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
      2021-10-10
    • python3.5 tkinter实现页面跳转

      python3.5 tkinter实现页面跳转

      这篇文章主要为大家详细介绍了python3.5 tkinter实现页面跳转,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
      2018-01-01
    • Python爬虫获取全网招聘数据实现可视化分析示例详解

      Python爬虫获取全网招聘数据实现可视化分析示例详解

      这篇文章主要介绍了Python爬虫获取全网招聘数据实现可视化分析示例详解,实现采集一下最新的qcwu招聘数据,本文列举了部分代码以及实现思路,需要的朋友可以参考下
      2023-07-07

    最新评论