Python中图片与pdf识别文本的方法总结(OCR)

更新时间：2025年06月12日 09:52:07 作者：幸福清风

在Python编程语言中,我们可以利用各种库来实现OCR功能,以便从PDF文档中的图片部分提取文本信息,这篇文章主要介绍了Python中图片与pdf识别文本的相关资料,需要的朋友可以参考下

1、PaddleOCR：

基于百度飞桨框架开发，模型丰富，支持多语言识别，包括中文、英文等。性能强大，适合复杂场景的文字识别

安装 PaddleOCR 库：

pip install paddleocr

示例代码

from paddleocr import PaddleOCR, draw_ocr
from PIL import Image

# 初始化 PaddleOCR
# 参数解释：
# `lang`：指定语言模型，如 'en'（英文）、'ch'（中文）等。
# `use_angle_cls`：是否启用文字方向分类器。
ocr = PaddleOCR(use_angle_cls=True, lang='en')  # 也可以设置为 'ch' 用于中文[^28^]

# 指定图片路径
img_path = 'example.jpg'  # 替换为你的图片路径

# 执行 OCR 识别
result = ocr.ocr(img_path, cls=True)  # `cls=True` 表示启用方向分类器

# 打印识别结果
for line in result:
    print(line)

# 可选：绘制识别结果并保存
if result:
    image = Image.open(img_path).convert('RGB')
    boxes = [line[0] for line in result]  # 提取文字框
    txts = [line[1][0] for line in result]  # 提取文字内容
    scores = [line[1][1] for line in result]  # 提取置信度

    # 绘制结果
    im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/PaddleOCR/doc/fonts/simfang.ttf')
    im_show = Image.fromarray(im_show)
    im_show.save('result.jpg')  # 保存绘制后的图片[^28^]

2、RapidOCR

首先，确保安装了 RapidOCR 的 ONNXRuntime 版本，这是一个轻量级且高效的推理引擎：

pip install rapidocr_onnxruntime

示例代码：识别数字和字母

以下代码展示了如何使用 RapidOCR 识别图片中的数字和字母，并仅打印识别结果：

from rapidocr_onnxruntime import RapidOCR

# 初始化 OCR 引擎
ocr = RapidOCR()

# 指定图片路径
img_path = 'example.jpg'  # 替换为你的图片路径

# 执行识别
result, _ = ocr(img_path)

# 提取并打印识别结果（仅数字和字母）
if result:
    for line in result:
        text = line[1]  # 提取文字内容
        # 筛选只包含数字和字母的文本
        if text.isalnum():
            print(text)
else:
    print("未识别到文字")

注意事项

图片路径：确保 img_path 指向的图片包含数字或字母。
语言设置：默认情况下，RapidOCR 支持中英文混合识别。如果需要识别其他语言，可以参考文档进行配置。
环境要求：确保 Python 版本为 3.6 或更高。

3、EasyOCR

特点：易于使用，支持多种语言（包括中文、英文等），基于深度学习技术，适合初学者和快速集成。
安装方法：
```
pip install easyocr
```

使用示例：

import easyocr

reader = easyocr.Reader(['en', 'ch_sim'])  # 支持多语言
img_path = 'example.jpg'
result = reader.readtext(img_path)
for line in result:
    print(line[1])  # 打印识别结果

4、Pytesseract

特点：Tesseract 的 Python 封装，支持多种语言，使用简单，适合传统 OCR 任务。
安装方法：
```
pip install pytesseract
```
需要先安装 Tesseract OCR，可以从 Tesseract 官网下载。

使用示例：

from PIL import Image
import pytesseract

img_path = 'example.jpg'
text = pytesseract.image_to_string(Image.open(img_path), lang='eng')
print(text)  # 打印识别结果

5、DocTR

特点：专注于文档分析和表格识别，能够提取文档中的结构化信息，适合处理复杂布局的文档。
安装方法：
```
pip install python-doctr
```

使用示例：

from doctr.models import ocr_predictor
from doctr.io import DocumentFile

img_path = 'example.jpg'
doc = DocumentFile.from_images(img_path)
model = ocr_predictor(pretrained=True)
result = model(doc)
for block in result.pages[0].blocks:
    for line in block.lines:
        for word in line.words:
            print(word.value)  # 打印识别结果

6、PyOCR

特点：封装了多个 OCR 引擎（如 Tesseract、Cuneiform 等），提供了统一的接口。
安装方法：
```
pip install pyocr
```

使用示例：

import pyocr
from PIL import Image

tools = pyocr.get_available_tools()
ocr_tool = tools[0]
img_path = 'example.jpg'
text = ocr_tool.image_to_string(Image.open(img_path), lang='eng')
print(text)  # 打印识别结果

选择建议：

速度优先：推荐使用 RapidOCR 或 EasyOCR。
准确性优先：推荐使用 PaddleOCR。
易用性优先：推荐使用 EasyOCR。
文档分析优先：推荐使用 docTR。

注意：根据你的具体需求（如语言支持、应用场景、性能要求等），可以选择最适合的 OCR 库。

总结

到此这篇关于Python中图片与pdf识别文本的文章就介绍到这了,更多相关Python图片与pdf识别文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

pytest内置fixture使用临时目录流程详解
fixture是在测试函数运行前后，由pytest执行的外壳函数。fixture中的代码可以定制，满足多变的测试需求，包括定义传入测试中的数据集、配置测试前系统的初始状态、为批量测试提供数据源等等。fixture是pytest的精髓所在
2022-12-12
python 代码实现k-means聚类分析的思路(不使用现成聚类库)
这篇文章主要介绍了python 代码实现k-means聚类分析(不使用现成聚类库),本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-06-06
Python实现识别手写数字大纲
这篇文章主要为大家详细介绍了Python实现识别手写数字的大纲，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-01-01
Python中os模块的简单使用及重命名操作
这篇文章主要给大家介绍了关于Python中os模块的简单使用及重命名操作的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
Python 函数那不为人知的一面
通常我们定义一个函数，然后调用该函数时，函数相关的代码才开始执行。可是很多人并不知道，当我们定义函数时，一些代码就开始执行了。今天就来说说函数这个不为人知的一面
2021-11-11
Python中使用bidict模块双向字典结构的奇技淫巧
bidict模块通过一对一映射结构的处理为Pyhton带来双向字典,能够更加利用Python的切片功能,这里我们就来学习Python中使用bidict模块双向字典结构的奇技淫巧:
2016-07-07
python3使用print打印带颜色的字符串代码实例
这篇文章主要介绍了python3使用print打印带颜色的字符串代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
Python+Flask实现自定义分页的示例代码
分页操作在web开发中几乎是必不可少的，而flask不像django自带封装好的分页操作。所以本文将自定义实现分页效果，需要的可以参考一下
2022-09-09
python+Selenium自动化测试——输入,点击操作
这篇文章主要介绍了python+Selenium自动化测试——输入,点击操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
Pytorch中项目配置文件的管理与导入方式
这篇文章主要为大家详细介绍了Pytorch中项目配置文件的管理与导入方式的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下
2025-12-12