python 使用pdfminer3k 读取PDF文档的例子

 更新时间:2019年08月27日 11:23:42   作者:彭世瑜  
今天小编就为大家分享一篇python 使用pdfminer3k 读取PDF文档的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python爬虫Scrapy框架IP代理的配置与调试

    Python爬虫Scrapy框架IP代理的配置与调试

    在调试爬虫的时候,新手都会遇到关于ip的错误,本文就来介绍一下Python爬虫Scrapy框架IP代理的配置与调试,具有一定的参考价值,感兴趣的可以了解一下
    2021-12-12
  • python中numpy数组的csv文件写入与读取

    python中numpy数组的csv文件写入与读取

    本文主要介绍了python中numpy数组的csv文件写入与读取,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • linux 下selenium chrome使用详解

    linux 下selenium chrome使用详解

    这篇文章主要介绍了linux 下selenium chrome使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • Python实现某论坛自动签到功能

    Python实现某论坛自动签到功能

    这篇文章主要介绍了Python实现论坛自动签到功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • Python实现随机生成任意数量车牌号

    Python实现随机生成任意数量车牌号

    这篇文章主要介绍了Python实现随机生成任意数量车牌号,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • Python九九乘法表的七种实现方式详解

    Python九九乘法表的七种实现方式详解

    在Python中,输出九九乘法表是一道非常基础的题目,但对于初学者来说,也是一个很好的练习和巩固基础知识的机会,这篇文章主要给大家介绍了关于Python九九乘法表的七种实现方式,需要的朋友可以参考下
    2023-09-09
  • pytorch fine-tune 预训练的模型操作

    pytorch fine-tune 预训练的模型操作

    这篇文章主要介绍了pytorch fine-tune 预训练的模型操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • 手把手教你进行Python虚拟环境配置教程

    手把手教你进行Python虚拟环境配置教程

    这篇文章主要介绍了手把手教你进行Python虚拟环境配置,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧,需要的朋友可以参考下
    2020-02-02
  • Python中获取秒级时间戳的实践指南

    Python中获取秒级时间戳的实践指南

    在计算机编程中,时间戳是一个非常重要的概念,它表示自 1970 年 1 月 1 日(UTC)以来经过的秒数,在 Python 中,获取当前时间的时间戳是一项常见的任务,尤其是在处理日志、数据库时间戳或者需要时间同步的场景中,本文介绍了Python中获取秒级时间戳的实践指南
    2024-12-12
  • numpy求解线性代数相关问题

    numpy求解线性代数相关问题

    本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-01-01

最新评论