解决PDF 转图片时丢文字的一种可能方式

 更新时间:2021年03月04日 09:48:27   作者:secsilm  
这篇文章主要介绍了解决PDF 转图片时丢字的一种可能方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

问题

Python 中 PDF 转图片一般用的是 pdf2image。有时我们会发现 PDF 转出来的图片都是空白,或者缺失了一些字,具体表现就是一些应该有字的区域是空白。

由于某些原因我不能把出现问题的文件放上来,不过大致就是这个情况。

主要的代码如下:

images = pdf2image.convert_from_path('/path/to/pdf', output_folder='images/', fmt='jpg')

运行时可能会发现代码没有任何异常,但是结果不对。

分析和解决

其实 pdf2image 底层默认使用的是 pdftoppm 来转图片,我们可以直接使用其来测试有问题的 PDF,会发现输出了一些警告:

除 pdftoppm 外,pdf2image 在两种情况下会使用 pdftocairo 来转图片,具体是:

当要转成 tif/tiff 格式时

当 transparent=True(默认为 False)且要转成 png/tif/tiff

Missing language pack for 'Adobe-GB1' mapping

很明显是缺失了语言包。

而且字缺失,自然而然想到的是字体缺失,即系统中没有 PDF 中的字体。

我们需要找到对应的字体,然后安装上。

一般来说,Linux 系统中,直接复制相应的字体文件到 /usr/share/fonts/ 目录下即可,可以使用 fc-list :lang=zh-cn 来查看当前系统有哪些中文字体。

对于中文来说,Noto CJK 字体可以覆盖所有的字,可以尝试下载安装此字体,有些系统可能自带。

有了字体,你再试的时候可能会发现还是不行,因为你还需要另一个东西:poppler-data。

这个东西是干嘛用的?根据作者的描述:

This package consists of encoding files for use with poppler. The encoding files are optional and poppler will automatically read them if they are present. When installed, the encoding files enables poppler to correctly render CJK and Cyrrilic properly. While poppler is licensed under the GPL, these encoding files have different license, and thus distributed separately.

大致就是这个包里是一些编码文件,可以让 poppler 正确渲染 CJK 文字。

我们可以通过 apt 来安装:

sudo apt install poppler-data

然后再次尝试,应该就可以成功转成正常的图片了。

总结一下,你需要两个东西:

正确的字体文件

poppler-data

Reference

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

相关文章

  • Python函数式编程指南(三):迭代器详解

    Python函数式编程指南(三):迭代器详解

    这篇文章主要介绍了Python函数式编程指南(三):迭代器详解,本文讲解了迭代器(Iterator)概述、使用迭代器、生成器表达式(Generator expression)和列表解析(List Comprehension)等内容,需要的朋友可以参考下
    2015-06-06
  • Python使用socketServer包搭建简易服务器过程详解

    Python使用socketServer包搭建简易服务器过程详解

    这篇文章主要介绍了Python使用socketServer包搭建简易服务器过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Pytest如何使用skip跳过执行测试

    Pytest如何使用skip跳过执行测试

    这篇文章主要介绍了Pytest如何使用skip跳过执行测试,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • 基于Python制作一个汇率换算程序

    基于Python制作一个汇率换算程序

    这篇文章主要为大家详细介绍了如何利用Python语言制作一个汇率换算程序,文中的示例代码讲解详细,对我们学习Python有一定帮助,需要的可以参考一下
    2022-09-09
  • 树莓派(python)与arduino串口通信的详细步骤

    树莓派(python)与arduino串口通信的详细步骤

    这篇文章主要介绍了树莓派(python)与arduino串口通信的详细步骤,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-11-11
  • PyTorch 1.0 正式版已经发布了

    PyTorch 1.0 正式版已经发布了

    今天小编就为大家分享一篇关于PyTorch 1.0 正式版已经发布了!小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-12-12
  • python中的RSA加密与解密实例解析

    python中的RSA加密与解密实例解析

    这篇文章主要介绍了python中的RSA加密与解密实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • Python continue继续循环用法总结

    Python continue继续循环用法总结

    本篇文章给大家总结了关于Python continue继续循环的相关知识点以及用法,有需要的朋友跟着学习下吧。
    2018-06-06
  • 教你如何在pycharm中安装opencv,tensorflow,keras

    教你如何在pycharm中安装opencv,tensorflow,keras

    今天通过本教程教大家如何在pycharm中安装opencv,tensorflow,keras,本文分步骤给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-08-08
  • python 6种方法实现单例模式

    python 6种方法实现单例模式

    这篇文章主要介绍了python 6种方法实现单例模式,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-12-12

最新评论