Python实现文字pdf转换图片pdf效果

 更新时间:2022年04月02日 15:05:21   作者:KjPrime  
当我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。所以本文将通过Python语言实现文字pdf转换图片pdf,需要的可以参考一下

前言

为什么会做这个?

因为我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。

网上确实也有网站可以实现免费的,但是未必安全。

思路

我看了网上的很多代码,都是先把文字pdf先转化为图片,然后再组装成pdf文档。我的思路也是这样的。

但是我和他们很大的不一样就是,我不需要先把图片保存起来再提取,而我只需要把图片的信息先存起来,再输出pdf。

代码展示

先安装依赖

pip install PyMuPDF

输入文件列表

import os
import fitz


def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件,用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    pdf_img.save("图片pdf_" + os.path.basename(pdf_path))


def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")


if __name__ == '__main__':
    path = ["xxx.pdf"]
    group_wordpdf_to_imgpdf(path)

输入文件夹

import os
import fitz
import time


def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件,用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    if not os.path.exists("output"):
        os.makedirs("output") # 处理好的pdf存入了output目录下 #
    pdf_img.save("output/图片pdf_" + os.path.basename(pdf_path))


def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")


def folder_pdf_files(folder: str) -> list[str]:  # 一个文件夹里面有多少pdf文件
    file_list = []
    for a, b, c in os.walk(folder):
        if b == []:
            for filename in c:
                if filename[-3:].lower() == 'pdf':
                    file_path = os.path.join(a, filename)
                    file_list.append(file_path)
    print(folder, ": 有", len(file_list), "个pdf文件")
    return file_list


if __name__ == '__main__':
    time_start = time.time()
    path_list = folder_pdf_files("目录")
    group_wordpdf_to_imgpdf(path_list)
    time_end = time.time()
    print("程序运行时间:", round(time_end - time_start, 2), "秒")

到此这篇关于Python实现文字pdf转换图片pdf效果的文章就介绍到这了,更多相关Python 文字pdf转图片pdf内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python图像处理库PIL的ImageGrab模块介绍详解

    Python图像处理库PIL的ImageGrab模块介绍详解

    这篇文章主要介绍了Python图像处理库PIL的ImageGrab模块介绍详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02
  • Python PIL库图片灰化处理

    Python PIL库图片灰化处理

    这篇文章主要介绍了Python图片灰化处理PIL库的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • 关于Python的高级数据结构与算法

    关于Python的高级数据结构与算法

    这篇文章主要介绍了关于Python的高级数据结构与算法,掌握这些数据结构和算法将帮助我们在实际编程中解决各种问题,提高我们的编程技巧和水平,需要的朋友可以参考下
    2023-04-04
  • 对PyQt5中树结构的实现方法详解

    对PyQt5中树结构的实现方法详解

    今天小编就为大家分享一篇对PyQt5中树结构的实现方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python3 使用selenium插件爬取苏宁商家联系电话

    Python3 使用selenium插件爬取苏宁商家联系电话

    这篇文章主要介绍了Python3 selenium爬取苏宁商家联系电话,此处使用了selenium插件 使用的是火狐浏览器 信息存储到csv表格里面,需要的朋友可以参考下
    2019-12-12
  • python面向对象法实现图书管理系统

    python面向对象法实现图书管理系统

    这篇文章主要为大家详细介绍了python面向对象法实现图书管理系统,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-04-04
  • anaconda如何查看并管理python环境

    anaconda如何查看并管理python环境

    这篇文章主要介绍了anaconda如何查看并管理python环境,Anaconda是Python的一个开源发行版本,主要面向科学计算,预装了丰富强大的库。使用Anaconda可以轻松管理多个版本的Python环境,需要的朋友可以参考下
    2019-07-07
  • Matplotlib中文乱码的两种详细解决方案

    Matplotlib中文乱码的两种详细解决方案

    最近手头有公司的数据资源,正好拿来练习了matplotlib的画图,期间碰到一个坑,就是中文在图表中显示的是方框,下面这篇文章主要给大家介绍了关于Matplotlib中文乱码的两种详细解决方案,需要的朋友可以参考下
    2022-07-07
  • Python脚本实现一键自动整理办公文件

    Python脚本实现一键自动整理办公文件

    这篇文章主要介绍了Python实现脚本一键自动整理办公文件,文件下载文件夹就变得乱七八糟,整理的时候非常痛苦,巴不得有一个自动化的工具帮我归类文档。下面小编就给大家分享自动化整理文件的小技巧,需要的朋友可以参考一下文章内容
    2022-02-02
  • 浅谈python函数之作用域(python3.5)

    浅谈python函数之作用域(python3.5)

    下面小编就为大家带来一篇浅谈python函数之作用域(python3.5)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10

最新评论