Python实现pdf文档转txt的方法示例

更新时间：2018年01月19日 10:47:09 作者：肥宝Fable

这篇文章主要介绍了Python实现pdf文档转txt的方法,结合实例形式分析了Python基于第三方库pdfminier实现针对pdf格式文档的读取、转换等相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现pdf文档转txt的方法。分享给大家供大家参考，具体如下：

首先，这是一个比较粗糙的版本，因为已经够用了，而且对pdf的格式不熟悉，所以暂时没有进一步优化。

还有，这是转成txt的，所以如果是有图片的pdf是无法保存图片的。

至于本来就是图片的文本，这里是无法分析出来的。那些图片的pdf，估计要用图形匹配的方式来处理，类似于超速拍摄的车牌识别。

不过这样的程度，已经不是文本处理了。扯远了。。。

转出来的文字，好像按照pdf里面的所展示的来换行了，看不到有什么规则还原，我也不知道怎么处理，将就着用吧。

另外，初始代码是网上找的，最初地址不知道哪里了。

用到了第三方库pdfminier

pdfminer库的地址 https://pypi.python.org/pypi/pdfminer3k

下载后，用cmd执行命令 setup.py install

安装完之后打开eclipse会弹出要求加载一些东西，点击确定就行了。

再来看看代码：

import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
class CPdf2TxtManager():
  '''''
  classdocs
  '''
  def __init__(self):
    '''''
    Constructor
    '''
  def changePdfToText(self, filePath):
    file = open(path, 'rb') # 以二进制读模式打开
    #用文件对象来创建一个pdf文档分析器
    praser = PDFParser(file)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    praser.set_document(doc)
    doc.set_parser(praser)
    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()
    # 检测文档是否提供txt转换，不提供就忽略
    if not doc.is_extractable:
      raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    pdfStr = ''
    # 循环遍历列表，每次处理一个page的内容
    for page in doc.get_pages(): # doc.get_pages() 获取page列表
      interpreter.process_page(page)
      # 接受该页面的LTPage对象
      layout = device.get_result()
      # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，
      for x in layout:
        if (isinstance(x, LTTextBoxHorizontal)):
          pdfStr = pdfStr + x.get_text() + '\n'
    fileNames = os.path.splitext(filePath)
    file2 = open(fileNames[0] + '.txt','wb')#保存这些内容
    file2.write(pdfStr.encode())
    file2.close()
    file.close()
if __name__ == '__main__':
  '''''
   解析pdf 文本，保存到txt文件中
  '''
  path = r'C:\Users\Administrator\Desktop\《精力管理》.pdf'
  pdf2TxtManager = CPdf2TxtManager()
  pdf2TxtManager.changePdfToText(path)

更多Python相关内容感兴趣的读者可查看本站专题：《Python文件与目录操作技巧汇总》、《Python编码操作技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

Python建立多元回归方程的实现
在Python中,可以使用scikit-learn和statsmodels等库来建立多元线性回归模型,本文主要介绍了Python建立多元回归方程的实现,具有一定的参考价值,感兴趣的可以了解一下
2023-11-11
使用Python插入SVG到PDF文档中的方法示例
将SVG（可缩放矢量图形）文件插入到PDF（便携式文档格式）文件中不仅能够保留SVG图像的矢量特性,确保图像在任何分辨率下都保持清晰,使得技术文档、手册、报告等内容更加丰富多样且易于传播,本文将介绍如何使用Python插入SVG文件到PDF文档中,需要的朋友可以参考下
2024-08-08
Python读写二进制文件的示例详解
在Python编程中,我们经常需要处理各种类型的文件,其中包括二进制文件,本文将详细介绍如何使用Python读写二进制文件,并提供一些实际应用的示例,希望对大家有所帮助
2024-01-01
Python 描述符（Descriptor）入门
本文给大家介绍的是Python中比较重要的一个知识点--描述符（Descriptor），描述符(descriptor)是Python语言核心中困扰我时间最长的一个特性,但是一旦你理解了之后,描述符的确还是有它的应用价值的。
2016-11-11
python 合并列表的八种方法
这篇文章主要介绍了python 连接列表的八种方法，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-03-03
Python Matplotlib绘制箱型图(箱线图)boxplot的方法详解
箱线图（箱型图）主要作用是发现数据内部整体的分布分散情况，包括上下限、各分位数、异常值等，本文为大家整理了Matplotlib绘制箱型图的所以方法，希望对大家有所帮助
2023-05-05
python深度学习tensorflow1.0参数初始化initializer
这篇文章主要为大家介绍了python深度学习tensorflow1.0参数初始化initializer示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-06-06
Python下载ts文件视频且合并的操作方法
ts文件，ts即"Transport Stream"的缩写，特点就是要求从视频流的任一片段开始都是可以独立解码的，非常适合网络视频播放，这篇文章主要介绍了Python下载ts文件视频且合并,需要的朋友可以参考下
2023-01-01
python判断集合的超集方法及实例
在本篇内容里小编给大家分享的是一篇关于python判断集合的超集方法及实例内容，有兴趣的朋友们可以学习下。
2021-05-05
python模拟登录百度贴吧(百度贴吧登录)实例
python模拟登录百度贴吧实例分享，大家参考使用吧
2013-12-12

Python实现pdf文档转txt的方法示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具