python实现读取学术论文PDF文件内容

 更新时间:2024年10月23日 09:19:44   作者:IT修炼家  
这篇文章主要为大家详细介绍了如何通过python实现读取学术论文PDF文件内容的功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下

1、PyPDF2

PyPDF2 是一个常用的库,可以用来读取、合并、分割和修改PDF文件。读取pdf内容:

import PyPDF2

# 打开PDF文件
with open('ELLK-Net_An_Efficient_Lightweight_Large_Kernel_Network_for_SAR_Ship_Detection.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    # 获取页面数
    num_pages = len(reader.pages)
    print(f"页面数: {num_pages}")
    
    # 读取每一页的文本
    for i in range(num_pages):
        page = reader.pages[i]
        text = page.extract_text()
        print(f"第 {i + 1} 页的内容:\n{text}")

结果如下:

效果: 可以看出,读取是从左往右,从上往下,文本内容读取的还挺全的,但是图片、表格都读不出来。

2、pdfplumber

pdfplumber 是一个功能强大的库,专门用于提取PDF文件中的文本和表格数据。读取PDF内容:

import pdfplumber

# 打开PDF文件
with pdfplumber.open('example.pdf') as pdf:
    for i in range(len(pdf.pages)):
        page = pdf.pages[i]
        text = page.extract_text()
        print(f"第 {i + 1} 页的内容:\n{text}")

结果如下:

效果: 看结果,这个库读取PDF是一整行一整行读取的,当文档内容是两页的时候,两列同一行会被同时读取。看别人说读取表格方便,但是这里也没读取出来,具体如下图所示。

此外,使用table = page.extract_table()单独读取有表格的页,输出结果为None

3、PyMuPDF

PyMuPDF 是另一个高效的库,可以处理PDF文件,支持文本提取、图像提取等功能。读取pdf如下:

import fitz  # PyMuPDF
from PIL import Image
import io
# 打开PDF文件
doc = fitz.open('ELLK-Net_An_Efficient_Lightweight_Large_Kernel_Network_for_SAR_Ship_Detection.pdf')
for page_number,page in enumerate(doc):
    text = page.get_text()
    print(f"第 {page.number + 1} 页的内容:\n{text}")
    # 获取页面中的所有图片
    image_list = page.get_images(full=True)
    # 遍历所有图片
    for img_index, img in enumerate(image_list):
        # 图片的XREF
        xref = img[0]
        # 获取图片对象
        base_image = doc.extract_image(xref)
        # 获取图片的二进制数据
        image_bytes = base_image["image"]
        # 将二进制数据转为PIL图像
        image = Image.open(io.BytesIO(image_bytes))
        # # 左右翻转
        # image = image.transpose(method=Image.FLIP_LEFT_RIGHT)
        # 上下翻转
        image = image.transpose(method=Image.FLIP_TOP_BOTTOM)
        # 获取图片的扩展名
        image_ext = base_image["ext"]
        # 保存图片
        # with open(f"page_{page_number + 1}_img_{img_index + 1}.{image_ext}", "wb") as image_file:
        #     image_file.write(image_bytes)
        image.save(f"page_{page_number + 1}_img_{img_index + 1}.{image_ext}")
        print(f"第 {page_number + 1} 页中提取的图片 {img_index + 1} 已保存。")

读取效果如下:

效果:文字提取效果与PyPDF2差不多,不同点是遇到大的空格会直接换行。可以读取图片,我这里发现读取的图片需要上下翻转。插入的图片可以直接读取,但是流程图可能因为是visio画的,读取不出来。另外,三线表格还是没有读取出来。

4、pdfminer

pdfminer.six 是一个专注于从PDF文件中提取文本和元数据的库。读取PDF如下:

from pdfminer.high_level import extract_text

# 提取文本
text = extract_text('example.pdf')
print(text)

读取结果:

效果: 读取结果整体空行多。读取方式按行读取,有左右两列的时候,哪一列先读到就读哪一列,因此顺序可能会错乱,就像上面结果图一项,该页内容先读取的右边的列。

总结

看网上的说法是:

PyPDF2:适合基本的PDF操作,如合并和提取文本。

pdfplumber:非常适合提取文本和表格。

PyMuPDF:功能强大,处理速度快,支持多种操作。

pdfminer.six:更适合复杂的文本提取需求。

但在读取类似上面这样的论文文档时,PyPDF2和PyMuPDF感觉好用点。

到此这篇关于python实现读取学术论文PDF文件内容的文章就介绍到这了,更多相关python读取PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 10 行Python 代码实现 AI 目标检测技术【推荐】

    10 行Python 代码实现 AI 目标检测技术【推荐】

    这篇文章主要介绍了10 行Python 代码,实现 AI 目标检测技术,看完了代码,我们在一起聊聊目标检测背后的技术背景,并解读这10行Python代码的由来和实现原理。感兴趣的朋友跟随小编一起看看吧
    2019-06-06
  • Python用字典构建多级菜单功能

    Python用字典构建多级菜单功能

    这篇文章主要介绍了Python用字典构建多级菜单功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-07-07
  • 分享几种python 变量合并方法

    分享几种python 变量合并方法

    这篇文章主要介绍了分享python 变量的合并几种方法,分享内容有list 合并和str 合并以及dict 合并的分析,下面具体方法介绍,需要的小伙伴可以参考一下
    2022-03-03
  • 关于Python使用logging库进行有效日志管理的方法详解

    关于Python使用logging库进行有效日志管理的方法详解

    在开发大型软件或处理复杂问题时,我们经常需要一种方法来记录和跟踪程序的运行状态,Python 提供了一个名为 logging 的标准库,可以帮助我们更好地完成这项任务,在这篇文章中,我们将介绍如何使用 Python 的 logging 库进行日志记录
    2023-06-06
  • python geemap的安装步骤及环境配置

    python geemap的安装步骤及环境配置

    geemap是基于GEE由吴秋生老师二次开发的一个包,geemap主要使用python来进行实现相关功能,这篇文章主要介绍了geemap的详细安装步骤及环境配置,需要的朋友可以参考下
    2022-08-08
  • python numpy中的polyfit函数用法

    python numpy中的polyfit函数用法

    这篇文章主要介绍了python numpy中的polyfit函数用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-04-04
  • Python处理excel根据全称自动填写简称

    Python处理excel根据全称自动填写简称

    这篇文章主要为大家详细介绍了Python处理excel根据全称自动填写简称,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-03-03
  • Python编写车票订购系统 Python实现快递收费系统

    Python编写车票订购系统 Python实现快递收费系统

    这篇文章主要为大家详细介绍了Python编写车票订购系统,Python实现快递收费系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-08-08
  • Python实现自定义读写分离代码实例

    Python实现自定义读写分离代码实例

    这篇文章主要介绍了Python实现自定义读写分离代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • Python程序运行原理图文解析

    Python程序运行原理图文解析

    这篇文章主要介绍了Python程序运行原理图文解析,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-02-02

最新评论