Python实现常用文本内容提取

 更新时间:2025年03月23日 15:26:24   作者:拥抱AI  
在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下

一、引言

在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,例如为了数据分析和文本处理等。如果手动进行这些操作,不仅费时费力,而且容易出错。因此,编写一个文本内容提取变得尤为重要。本文将介绍如何使用Python编写一个文本内容提取,该工具可以从PDF、Word文档中提取文本。

二、文本内容提取的原理

文本内容提取的核心原理是遍历指定目录下的所有文件,根据文件类型(PDF或Word)使用相应的库提取文本,然后将提取的文本保存到指定目录。在这个过程中,我们需要考虑以下几个问题:

如何遍历指定目录下的所有文件?

如何根据文件类型提取文本?

如何保存提取的文本?

接下来,我们将分别介绍这三个问题的解决方案。

三、文本内容提取的设计

在设计文本内容提取时,我们需要考虑以下几个方面的内容:

用户界面:为了方便用户使用,我们可以设计一个简单的命令行界面,让用户可以输入目录、输出目录等参数。

文件遍历:我们需要编写一个文件遍历,用于遍历指定目录下的所有文件。

文本提取:我们需要编写一个文本提取,用于根据文件类型提取文本。

文本保存:我们需要编写一个文本保存,用于将提取的文本保存到指定目录。

四、文本内容提取的实现

接下来,我们将详细介绍文本内容提取的实现过程。为了方便起见,我们将使用Python编写这个工具。

1.用户界面

我们可以使用Python的argparse库来设计一个简单的命令行界面。界面包括以下几个部分:

目录参数:让用户指定需要提取文本的文件所在的目录。

输出目录参数:让用户指定提取的文本保存到的目录。

2.文件遍历

我们可以使用Python的os库来遍历指定目录下的所有文件。具体实现如下:

import os
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list

3.文本提取

对于PDF文件,我们可以使用Python的PyPDF2库来提取文本。具体实现如下:

import PyPDF2
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text = page.extractText()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)

对于Word文档,我们可以使用Python的python-docx库来提取文本。具体实现如下:

from docx import Document
def extract_text_from_docx(docx_path, output_path):
    doc = Document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))

4.文本保存

我们可以使用Python的os.path.join()函数来保存提取的文本。具体实现如下:

import os
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)

五、完整代码示例

import argparse
import os
import PyPDF2
from docx import Document
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text = page.extractText()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)
def extract_text_from_docx(docx_path, output_path):
    doc = Document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)
def main():
    parser = argparse.ArgumentParser(description="文本内容提取")
    parser.add_argument("directory", help="指定目录")
    parser.add_argument("output_directory", help="指定输出目录")
    args = parser.parse_args()
    dir_path = args.directory
    output_dir = args.output_directory
    file_list = traverse_dir(dir_path)
    for file_path in file_list:
        if file_path.lower().endswith(('.pdf')):
            extract_text_from_pdf(file_path, output_dir)
        elif file_path.lower().endswith(('.docx', '.doc')):
            extract_text_from_docx(file_path, output_dir)
if __name__ == "__main__":
    main()

以上就是Python实现常用文本内容提取的详细内容,更多关于Python文本内容提取的资料请关注脚本之家其它相关文章!

相关文章

  • Python使用plt.boxplot() 参数绘制箱线图

    Python使用plt.boxplot() 参数绘制箱线图

    这篇文章主要介绍了Python使用plt.boxplot() 参数绘制箱线图 ,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • 基于Python实现大文件分割和命名脚本过程解析

    基于Python实现大文件分割和命名脚本过程解析

    这篇文章主要介绍了基于Python实现大文件分割和命名脚本过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • 详解Python3中的迭代器和生成器及其区别

    详解Python3中的迭代器和生成器及其区别

    本篇将介绍Python3中的迭代器与生成器,描述可迭代与迭代器关系,并实现自定义类的迭代器模式。非常具有实用价值,需要的朋友可以参考下
    2018-10-10
  • Pytorch+PyG实现GraphConv过程示例详解

    Pytorch+PyG实现GraphConv过程示例详解

    这篇文章主要为大家介绍了Pytorch+PyG实现GraphConv过程示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • Pyqt5自适应布局实例

    Pyqt5自适应布局实例

    今天小编就为大家分享一篇Pyqt5自适应布局实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • pd.DataFrame中的几种索引变换的实现

    pd.DataFrame中的几种索引变换的实现

    本文主要介绍了pd.DataFrame中的几种索引变换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • Python邮箱API发送邮件的方法和步骤

    Python邮箱API发送邮件的方法和步骤

    Python是一种功能强大的编程语言,可以用来发送电子邮件,使用Python发送邮件可以通过邮箱API来实现,aoksend将介绍使用Python邮箱API发送邮件的方法和步骤,需要的朋友可以参考下
    2024-04-04
  • Python如何判断字符串是否仅包含数字

    Python如何判断字符串是否仅包含数字

    在用Python进行数据处理的时候,经常会遇到DataFrame中的某一列本应该是数值类型,但由于数据不规范导致在字段中夹杂了非数值类型,本文就介绍了Python如何判断字符串是否仅包含数字,感兴趣的可以了解一下
    2022-03-03
  • python中Matplotlib实现绘制3D图的示例代码

    python中Matplotlib实现绘制3D图的示例代码

    本篇文章主要介绍了python中Matplotlib实现绘制3D图的示例代码,具有一定的参考价值,有兴趣的可以了解一下
    2017-09-09
  • python发送json参数的实例代码

    python发送json参数的实例代码

    在写脚本的过程中,除了发送form表单参数之外,我们还会发送json格式的参数。那么碰见json格式要怎么发送呢,这篇我们来解决这个问题,需要的朋友可以参考下
    2019-10-10

最新评论