python 使用pdfminer3k 读取PDF文档的例子

 更新时间:2019年08月27日 11:23:42   作者:彭世瑜  
今天小编就为大家分享一篇python 使用pdfminer3k 读取PDF文档的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 关于Python中的海象运算符使用方法详解

    关于Python中的海象运算符使用方法详解

    这篇文章主要介绍了关于Python中的海象运算符“:=”使用方法详解,海象运算符(walrus operator)是 Python 3.8 中引入的一种新的语法,需要的朋友可以参考下
    2023-04-04
  • 一文带你探索Python生成器的深度用法

    一文带你探索Python生成器的深度用法

    生成器是Python的一种核心特性,允许我们在请求新元素时再生成这些元素,而不是在开始时就生成所有元素,本文我们将从理论和实践两方面来探索Python生成器的深度用法,感兴趣的可以了解一下
    2023-06-06
  • Python的logging.config模块操作步骤

    Python的logging.config模块操作步骤

    这篇文章主要介绍了Python的logging.config模块操作步骤,本文通过示例代码给大家介绍的非常详细对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-08-08
  • python 计算一个字符串中所有数字的和实例

    python 计算一个字符串中所有数字的和实例

    今天小编就为大家分享一篇python 计算一个字符串中所有数字的和实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python 机器学习的标准化、归一化、正则化、离散化和白化

    python 机器学习的标准化、归一化、正则化、离散化和白化

    这篇文章主要介绍了聊聊机器学习的标准化、归一化、正则化、离散化和白化,帮助大家更好的理解和学习使用python进行机器学习,感兴趣的朋友可以了解下
    2021-04-04
  • 超详细注释之OpenCV实现视频实时人脸模糊和人脸马赛克

    超详细注释之OpenCV实现视频实时人脸模糊和人脸马赛克

    这篇文章主要介绍了OpenCV实现视频实时人脸模糊和人脸马赛克,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • Python学习之自定义异常详解

    Python学习之自定义异常详解

    这篇文章主要为大家介绍了Python中如何自定义异常,以及自定义抛出异常的关键字—raise的用法,文中示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2022-03-03
  • python语言time库和datetime库基本使用详解

    python语言time库和datetime库基本使用详解

    这篇文章主要介绍了python语言time库和datetime库基本使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • 使用Python将图片转正方形的两种方法实例代码详解

    使用Python将图片转正方形的两种方法实例代码详解

    这篇文章主要介绍了使用Python将图片转正方形的两种方法,本文通过实例代码给大家给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • 浅谈利用numpy对矩阵进行归一化处理的方法

    浅谈利用numpy对矩阵进行归一化处理的方法

    今天小编就为大家分享一篇浅谈利用numpy对矩阵进行归一化处理的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07

最新评论