Python利用pdfplumber库提取pdf中的文字

 更新时间:2023年05月26日 10:36:15   作者:空空star  
pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库,它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等,本文将给大家介绍如何通过Python的pdfplumber库提取pdf中的文字,需要的朋友可以参考下

一、pdfplumber库是什么?

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、pdfplumber和PyPDF2区别是什么?

pdfplumber和PyPDF2都是Python中用于处理PDF文件的库,但它们有一些区别:
功能:pdfplumber提供了更多的功能,例如提取表格、提取图片、提取链接等,而PyPDF2只能提取文本和元数据。
速度:pdfplumber比PyPDF2更快,因为它使用了C语言的pdfminer库进行解析。
API:pdfplumber的API更加直观和易用,而PyPDF2的API有时候会让人感到困惑。
总之,如果你需要提取PDF文件中的表格、图片或链接等内容,那么pdfplumber是一个更好的选择。如果你只需要提取文本和元数据,那么PyPDF2也可以胜任。

五、使用方法

1.引入库

import pdfplumber

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

with pdfplumber.open(local+"demo.pdf") as pdf:

4.获取PDF文件中的页数

    num_pages = len(pdf.pages)

5.遍历每一页

    for page_num in range(num_pages):

6.获取当前页内容

page = pdf.pages[page_num]

7.提取文本内容

text = page.extract_text()

8.打印文本内容

print(text)

9.效果

大家好,我是空空star,这是第一页。
大家好,我是空空star,这是第二页。
大家好,我是空空star,这是第三页。

到此这篇关于Python利用pdfplumber库提取pdf中的文字的文章就介绍到这了,更多相关Python pdfplumber库提取文字内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python 通过麦克风录音 生成wav文件的方法

    python 通过麦克风录音 生成wav文件的方法

    今天小编就为大家分享一篇python 通过麦克风录音 生成wav文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Django模板过滤器和继承示例详解

    Django模板过滤器和继承示例详解

    初入python和django做项目,遇到很多前端页面代码冗余的情况,特别是头部和脚部,代码都是一样的,所以下面这篇文章主要给大家介绍了关于Django模板过滤器和继承的相关资料,需要的朋友可以参考下
    2021-11-11
  • matplotlib 双y轴绘制及合并图例的实现代码

    matplotlib 双y轴绘制及合并图例的实现代码

    这篇文章主要介绍了matplotlib 双y轴绘制及合并图例,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-10-10
  • Python判断Nan值的五种方式小结

    Python判断Nan值的五种方式小结

    这篇文章主要介绍了Python判断Nan值的五种方式小结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • Python中运算符

    Python中运算符"=="和"is"的详解

    大家都知道python中有很多的运算符,今天我们就来深入的介绍is和==这两种运算符以及他们的区别,有需要的朋友们可以参考借鉴,下面来一起看看吧。
    2016-10-10
  • Python+OpenCV数字图像处理之ROI区域的提取

    Python+OpenCV数字图像处理之ROI区域的提取

    ROI区域又叫感兴趣区域。在机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为感兴趣区域,ROI。本文主要为大家介绍如何通过Python+OpenCV提取ROI区域,需要的朋友可以了解一下
    2021-12-12
  • Django实现将一个字典传到前端显示出来

    Django实现将一个字典传到前端显示出来

    这篇文章主要介绍了Django实现将一个字典传到前端显示出来,具有很好的参考价值,希望
    2020-04-04
  • 简单了解什么是神经网络

    简单了解什么是神经网络

    这篇文章主要介绍了简单了解什么是神经网络,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • Python连接DB2数据库

    Python连接DB2数据库

    DB2 是美国IBM公司开发的一套关系型数据库管理系统,它主要的运行环境为UNIX(包括IBM自家的AIX)、Linux、IBM i(旧称OS/400)、z/OS,以及Windows服务器版本。今天我们来探讨下如何使用Python连接DB2数据库
    2016-08-08
  • 在python中画正态分布图像的实例

    在python中画正态分布图像的实例

    今天小编就为大家分享一篇在python中画正态分布图像的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07

最新评论