Python批量提取PDF文件中文本的脚本

 更新时间:2021年04月05日 09:02:00   作者:董付国  
这篇文章主要为大家详细介绍了Python批量提取PDF文件中文本的脚本,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
 print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python获取list下标及其值的简单方法

    python获取list下标及其值的简单方法

    下面小编就为大家带来一篇python获取list下标及其值的简单方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-09-09
  • Python pymongo模块常用操作分析

    Python pymongo模块常用操作分析

    这篇文章主要介绍了Python pymongo模块常用操作,结合实例形式分析了pymongo模块的导入、连接MongoDB数据以及插入、更新、删除、查询等操作相关实现技巧,需要的朋友可以参考下
    2018-09-09
  • Opencv中cv2.floodFill算法的使用

    Opencv中cv2.floodFill算法的使用

    本文结合实例,详细的介绍了泛洪填充算法的具体使用,具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-06-06
  • python中时间模块的基本使用教程

    python中时间模块的基本使用教程

    这篇文章主要给大家介绍了关于python中时间模块的基本使用的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-05-05
  • Pycharm没有报错提示(误触ignore)的完美解决方案

    Pycharm没有报错提示(误触ignore)的完美解决方案

    这篇文章主要介绍了Pycharm没有报错提示(误触ignore)的解决方案,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-12-12
  • python实现遍历文件夹修改文件后缀

    python实现遍历文件夹修改文件后缀

    这篇文章主要介绍了python实现遍历文件夹修改文件后缀,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-08-08
  • python中pdb模块实例用法

    python中pdb模块实例用法

    在本篇文章里小编给大家整理的是一篇关于python中pdb模块实例用法的相关内容,有兴趣点朋友们可以学习下。
    2021-01-01
  • matplotlib一维散点分布图的实现

    matplotlib一维散点分布图的实现

    本文主要介绍了matplotlib一维散点分布图的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • ubuntu 18.04 安装opencv3.4.5的教程(图解)

    ubuntu 18.04 安装opencv3.4.5的教程(图解)

    这篇文章主要介绍了ubuntu 18.04 安装opencv3.4.5的教程,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-11-11
  • Python数据结构与算法之算法分析详解

    Python数据结构与算法之算法分析详解

    算法分析的主要目标是从运行时间和内存空间消耗等方面比较算法。本文将为大家详细介绍Python数据结构与算法中的算法分析,需要的可以参考一下
    2021-12-12

最新评论