Python实现文字pdf转换图片pdf效果

更新时间：2022年04月02日 15:05:21 作者：KjPrime

当我们把word转化为pdf，wps默认转化为文字pdf，而图片pdf要会员。所以本文将通过Python语言实现文字pdf转换图片pdf，需要的可以参考一下

前言

为什么会做这个？

因为我们把word转化为pdf，wps默认转化为文字pdf，而图片pdf要会员。

网上确实也有网站可以实现免费的，但是未必安全。

思路

我看了网上的很多代码，都是先把文字pdf先转化为图片，然后再组装成pdf文档。我的思路也是这样的。

但是我和他们很大的不一样就是，我不需要先把图片保存起来再提取，而我只需要把图片的信息先存起来，再输出pdf。

代码展示

先安装依赖

pip install PyMuPDF

输入文件列表

import os
import fitz


def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件，用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度，感觉输出的pdf不够清晰，可以调大，调大，文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    pdf_img.save("图片pdf_" + os.path.basename(pdf_path))


def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")


if __name__ == '__main__':
    path = ["xxx.pdf"]
    group_wordpdf_to_imgpdf(path)

输入文件夹

import os
import fitz
import time


def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件，用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度，感觉输出的pdf不够清晰，可以调大，调大，文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    if not os.path.exists("output"):
        os.makedirs("output") # 处理好的pdf存入了output目录下 #
    pdf_img.save("output/图片pdf_" + os.path.basename(pdf_path))


def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")


def folder_pdf_files(folder: str) -> list[str]:  # 一个文件夹里面有多少pdf文件
    file_list = []
    for a, b, c in os.walk(folder):
        if b == []:
            for filename in c:
                if filename[-3:].lower() == 'pdf':
                    file_path = os.path.join(a, filename)
                    file_list.append(file_path)
    print(folder, ": 有", len(file_list), "个pdf文件")
    return file_list


if __name__ == '__main__':
    time_start = time.time()
    path_list = folder_pdf_files("目录")
    group_wordpdf_to_imgpdf(path_list)
    time_end = time.time()
    print("程序运行时间：", round(time_end - time_start, 2), "秒")

到此这篇关于Python实现文字pdf转换图片pdf效果的文章就介绍到这了,更多相关Python 文字pdf转图片pdf内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python+selenium 获取一组元素属性值的实例
今天小编就为大家分享一篇Python+selenium 获取一组元素属性值的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
Python通过正则库爬取淘宝商品信息代码实例
这篇文章主要介绍了Python通过正则库爬取淘宝商品信息代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-03-03
python3使用print打印带颜色的字符串代码实例
这篇文章主要介绍了python3使用print打印带颜色的字符串代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
利用django和mysql实现一个简单的web登录页面
这篇文章主要给大家介绍了关于如何利用django和mysql实现一个简单的web登录页面的相关资料,文中通过图文以及实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2023-05-05
python实现用户登陆邮件通知的方法
这篇文章主要介绍了python实现用户登陆邮件通知的方法,实例分析了Python计划任务与邮件发送的使用技巧,需要的朋友可以参考下
2015-07-07
使用Pytorch如何完成多分类问题
这篇文章主要介绍了使用Pytorch如何完成多分类问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
详解Python+Selenium+ChromeDriver的配置和问题解决
这篇文章主要介绍了Python+Selenium+ChromeDriver的配置和问题解决，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01
把JSON数据格式转换为Python的类对象方法详解（两种方法）
本文通过两种方法给大家介绍了把JSON数据格式转换为Python的类对象，本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值 ,需要的朋友可以参考下
2019-06-06
使用sklearn的cross_val_score进行交叉验证实例
今天小编就为大家分享一篇使用sklearn的cross_val_score进行交叉验证实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
Python实现的朴素贝叶斯算法经典示例【测试可用】
这篇文章主要介绍了Python实现的朴素贝叶斯算法,结合实例形式详细分析了Python实现与使用朴素贝叶斯算法的具体操作步骤与相关实现技巧,需要的朋友可以参考下
2018-06-06