利用Python的PyPDF2库提取pdf中的文字

 更新时间:2023年05月24日 10:26:24   作者:空空star  
PyPDF2是一个用于处理PDF文件的Python库,它提供了许多用于读取和操作PDF文件的功能,对于需要处理PDF文件的Python应用程序,PyPDF2是一个非常实用的工具库,本文将给大家详细介绍一下如何通过Python的PyPDF2库提取pdf中的文字,需要的朋友可以参考下

一、PyPDF2库是什么?

PyPDF2是一个用于处理PDF文件的Python库,它提供了许多用于读取和操作PDF文件的功能。它可以对PDF文件进行合并、分割、旋转、提取页面、加密和解密等操作,也可以添加文本、图像和水印等元素到PDF文件中。
PyPDF2库允许开发人员通过Python代码轻松地处理PDF文件,因为它提供了一些简单易用的接口,同时它也非常灵活,可以根据需要进行自定义操作。对于需要处理PDF文件的Python应用程序,PyPDF2是一个非常实用的工具库。

二、安装PyPDF2库

pip install PyPDF2

三、查看PyPDF2库版本

pip show PyPDF2

Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:

四、使用方法

1.引入库

import PyPDF2

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

with open(local+'demo.pdf', 'rb') as pdf_file:

4.创建PDF阅读器对象

pdf_reader = PyPDF2.PdfReader(pdf_file)

5.获取PDF文件中的页数

num_pages = len(pdf_reader.pages)

6.遍历每一页

for page_num in range(num_pages):

7.获取当前页内容

page = pdf_reader.pages[page_num]

8.提取当前页文本

page_text = page.extract_text()

9.打印当前页文本

print(page_text)

10.效果

大家好,我是空空star,这是第一页。
大家好,我是空空star,这是第二页。
大家好,我是空空star,这是第三页。
Process finished with exit code 0

总结

需要提取的pdf截图

以上就是利用Python的PyPDF2库提取pdf中的文字的详细内容,更多关于Python PyPDF2库提取pdf文字的资料请关注脚本之家其它相关文章!

相关文章

  • Python实现生成带logo背景图的二维码

    Python实现生成带logo背景图的二维码

    这篇文章主要为大家详细介绍了如何利用Python实现生成带logo背景图的二维码(静态和动态图),文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2023-05-05
  • Django实现文件上传和下载功能

    Django实现文件上传和下载功能

    这篇文章主要为大家详细介绍了Django下完成文件上传和下载功能,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-10-10
  • python发送邮件功能实现代码

    python发送邮件功能实现代码

    这篇文章主要为大家详细介绍了python发送邮件功能实现代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-07-07
  • python标记语句块使用方法总结

    python标记语句块使用方法总结

    在本篇文章里小编给大家整理了关于python标记语句块使用方法以及相关知识点,需要的朋友们参考下。
    2019-08-08
  • Python如何定义有默认参数的函数

    Python如何定义有默认参数的函数

    这篇文章主要介绍了Python如何定义有默认参数的函数,帮助大家更好的理解和学习Python,感兴趣的朋友可以了解下
    2020-08-08
  • 基于Python获取照片的GPS位置信息

    基于Python获取照片的GPS位置信息

    这篇文章主要介绍了基于Python获取照片的GPS位置信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-01-01
  • 对Matlab中共轭、转置和共轭装置的区别说明

    对Matlab中共轭、转置和共轭装置的区别说明

    这篇文章主要介绍了对Matlab中共轭、转置和共轭装置的区别说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python实现提取Excel指定关键词的行数据

    Python实现提取Excel指定关键词的行数据

    这篇文章主要为大家介绍了如何利用Python实现提取Excel指定关键词的行数据,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起动手试一试
    2022-03-03
  • python3转换code128条形码的方法

    python3转换code128条形码的方法

    这篇文章主要介绍了python3转换code128条形码的方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-04-04
  • python实现linux下抓包并存库功能

    python实现linux下抓包并存库功能

    这篇文章主要为大家详细介绍了python实现linux下抓包并存库功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07

最新评论