Python2.7读取PDF文件的方法示例

 更新时间:2017年07月13日 09:35:21   作者:guozhenqiang1992  
这篇文章主要介绍了Python2.7读取PDF文件的方法,结合实例形式分析了Python2.7基于PDFMiner模块实现针对pdf文件的读取功能相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python2.7读取PDF文件的方法。分享给大家供大家参考,具体如下:

这篇文章示例代码采用的Python版本是2.7,需要下载的插件是PDFMiner,下载地址是http://www.unixuser.org/~euske/python/pdfminer/,地址里有安装方法,我就不再细说了,需要说明的是Python2只能使用PDFMiner,Python3不能使用,Python3可以使用PDFMiner3K,下载地址为https://pypi.python.org/pypi/pdfminer3k/。两种插件使用上大体相似,这里我以Python2为例,使用PDFMiner插件。代码如下:

#!/usr/bin/env python
#-*- coding:utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
#获取文档对象,你把algorithm.pdf换成你自己的文件名即可。
fp=open("algorithm.pdf","rb")
#创建一个与文档相关联的解释器
parser=PDFParser(fp)
#PDF文档对象
doc=PDFDocument(parser)
#链接解释器和文档对象
parser.set_document(doc)
#doc.set_paeser(parser)
#初始化文档
#doc.initialize("")
#创建PDF资源管理器
resource=PDFResourceManager()
#参数分析器
laparam=LAParams()
#创建一个聚合器
device=PDFPageAggregator(resource,laparams=laparam)
#创建PDF页面解释器
interpreter=PDFPageInterpreter(resource,device)
#使用文档对象得到页面集合
for page in PDFPage.create_pages(doc):
  #使用页面解释器来读取
  interpreter.process_page(page)
  #使用聚合器来获取内容
  layout=device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print out.get_text()

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python文件与目录操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • 双向RNN:bidirectional_dynamic_rnn()函数的使用详解

    双向RNN:bidirectional_dynamic_rnn()函数的使用详解

    今天小编就为大家分享一篇双向RNN:bidirectional_dynamic_rnn()函数的使用详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python3中dict.keys().sort()用不了的解决方法

    python3中dict.keys().sort()用不了的解决方法

    本文主要介绍了python3中dict.keys().sort()用不了的解决方法,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-12-12
  • 基于python实现的抓取腾讯视频所有电影的爬虫

    基于python实现的抓取腾讯视频所有电影的爬虫

    这篇文章主要介绍了用python实现的抓取腾讯视频所有电影的爬虫,这个程序使用芒果存, 所以大家需要下载使用mongodb才可以
    2016-04-04
  • 结合Python网络爬虫做一个今日新闻小程序

    结合Python网络爬虫做一个今日新闻小程序

    本篇文章介绍了我在开发过程中遇到的一个问题,以及解决该问题的过程及思路,通读本篇对大家的学习或工作具有一定的价值,需要的朋友可以参考下
    2021-09-09
  • 亲测解决tensorflow和keras版本不匹配的问题

    亲测解决tensorflow和keras版本不匹配的问题

    这篇文章主要介绍了亲测解决tensorflow和keras版本不匹配问题,完美解决:ImportError: No module named 'tensorflow.python.eager'问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-03-03
  • Python Matplotlib条形图之垂直条形图和水平条形图详解

    Python Matplotlib条形图之垂直条形图和水平条形图详解

    这篇文章主要为大家详细介绍了Python Matplotlib条形图之垂直条形图和水平条形图,使用数据库,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • Python批量修改图片分辨率的实例代码

    Python批量修改图片分辨率的实例代码

    今天小编就为大家分享一篇Python批量修改图片分辨率的实例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python 文件和输入输出小结

    Python 文件和输入输出小结

    Python 是面向对象编程语言,文件也是一种类,下面简单介绍下,方便需要的朋友
    2013-10-10
  • C# DataGridView行列转换的具体实现

    C# DataGridView行列转换的具体实现

    本文主要介绍了C# DataGridView行列转换的具体实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Python线程的两种编程方式

    Python线程的两种编程方式

    这篇文章主要介绍了Python线程的两种编程方式,Python中如果要使用线程的话,一种是函数式,一种是用类来包装的线程对象,需要的朋友可以参考下
    2015-04-04

最新评论