Java如何识别图片或扫描PDF中的文字详解

更新时间：2025年01月09日 09:48:11 作者：nuclear2011

这篇文章主要介绍了Java如何识别图片或扫描PDF中文字的相关资料,介绍了Java中使用Spire.OCRforJava库来识别图片和扫描PDF文件中的文字,需要的朋友可以参考下

前言

图片和扫描文件通常以非文本格式存在，这使得其中的文字信息难以直接编辑、搜索或复制。为了解决这个问题，光学字符识别（OCR）技术应运而生。OCR通过分析图像中的文字区域并将其转换为可编辑的文本，从而使用户能够轻松提取信息。如今，OCR已被广泛应用于文档数字化、数据提取和文字搜索等多个领域，为各行各业带来了便利。这篇博客将探讨如何在Java中通过OCR技术识别图片和扫描PDF文件中的文字。

使用工具

首先，我们需要选择一个适当的OCR库。在Java中有许多OCR库，本文所使用的是Spire.OCR for Java。在使用该库前，我们需要完成以下两个步骤：

1. 在程序中引入该库的JAR包

你可以通过官方地址下载该库的JAR包或通过Maven仓库拉取，依赖如下：

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.ocr</artifactId>
    <version>1.9.19</version>
</dependency>

2. 下载Spire.OCR for Java的模型

Spire.OCR for Java提供了支持Win 64位和Linux 64位操作系统的两种模型。我们需要根据自己的系统下载适合的模型：

下载完成后，将它解压并保存到特定的目录下。

完成以上两个步骤后，我们就可以使用该库实现识别图片和扫描PDF中的文字。

Java识别图片中的文字

以下是使用Spire.OCR for Java识别图片中的文字的主要步骤：

创建OcrScanner类的实例。
创建 ConfigureOptions 类的实例来设置扫描器配置。
使用ConfigureOptions.setLanguage()方法指定文本识别的语言，默认设置为English（支持语言：English，Chinese，Chinesetraditional，French，German，Japanese和Korean）。
使用ConfigureOptions.setModelPath()方法指定模型的路径。
使用OcrScanner.ConfigureDependencies()方法将配置应用于扫描器。
使用OcrScanner.scan()方法识别图片中的文本。
使用OcrScanner.getText()方法从 OcrScanner 对象获取已识别的文本。
将获取的文本写入文本文件。

以下代码示例展示了如何识别图片中的文本并将结果保存到文本文件中：

import com.spire.ocr.ConfigureOptions;
import com.spire.ocr.OcrException;
import com.spire.ocr.OcrScanner;

import java.io.FileWriter;
import java.io.IOException;

public class ExtractTextFromImage {

    public static void main(String[] args) {
        // 从图片中识别文字
        String scannedText = scanTextFromImage("测试.png", "Chinese", "E:\\win-x64");

        // 保存识别出的文字到文件
        saveTextToFile(scannedText, "图片文字.txt");
    }

    /**
     * 方法：从图片中识别文字
     * @param imagePath 图片路径
     * @param language OCR语言，支持语言包括 English, Chinese, Chinesetraditional, French, German, Japanese 和 Korean
     * @param modelPath OCR模型路径
     * @return 识别出的文字
     */
    private static String scanTextFromImage(String imagePath, String language, String modelPath) {
        try {
            // 创建OcrScanner类的对象
            OcrScanner scanner = new OcrScanner();
            // 设置扫描器配置
            ConfigureOptions configureOptions = new ConfigureOptions();
            // 指定文本识别的语言
            configureOptions.setLanguage(language);
            // 指定模型的路径
            configureOptions.setModelPath(modelPath);
            // 将配置应用于扫描器
            scanner.ConfigureDependencies(configureOptions);

            // 识别图片中的文本
            scanner.scan(imagePath);
            // 获取识别出的文本
            return scanner.getText().toString();
        } catch (OcrException e) {
            System.out.println("OCR 文字识别时发生错误。");
            e.printStackTrace();
            return "";
        }
    }

    /**
     * 方法：将识别出的文字保存到文件
     * @param text 识别出的文字
     * @param filePath 保存文件路径
     */
    private static void saveTextToFile(String text, String filePath) {
        // 将获取的文本写入文本文件
        try (FileWriter writer = new FileWriter(filePath)) {
            writer.write(text);
            System.out.println("文本已成功保存到 " + filePath);
        } catch (IOException e) {
            System.out.println("保存文本文件时发生错误。");
            e.printStackTrace();
        }
    }
}

原始图片和识别结果：

Java识别扫描PDF中的文字

Spire.OCR for Java库并不支持直接处理PDF，因此要从扫描的 PDF 中提取文本，我们首先需要将 PDF 文档转换为图片。对于此任务，我们将使用Spire.PDF for Java库。转换完成后，再利用 Spire.OCR 从生成的图片中提取文本。

你可以通过该地址下载Spire.PDF for Java的JAR包或者通过Maven仓库拉取：

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.pdf</artifactId>
    <version>10.10.0</version>
</dependency>

以下代码示例展示了如何识别扫描PDF中的文本并将结果保存到文本文件中：

import com.spire.ocr.ConfigureOptions;
import com.spire.ocr.OCRImageFormat;
import com.spire.ocr.OcrException;
import com.spire.ocr.OcrScanner;
import com.spire.pdf.PdfDocument;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;

public class ExtractTextFromScannedPDF {

    public static void main(String[] args) throws OcrException, IOException {
        // 打开扫描PDF文档
        PdfDocument pdf = new PdfDocument();
        pdf.loadFromFile("扫描.pdf");

        // 从扫描PDF文档中识别文字并将结果保存到文本文件
        for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {
            BufferedImage image = convertPdfPageToImage(pdf, pageIndex);
            String scannedText = recognizeTextFromImage(image, "Chinese", "E:\\win-x64");

            // 将识别出的文本保存到文件
            saveTextToFile(scannedText, "扫描PDF文字.txt");
        }
    }

    /**
     * 方法：将PDF页面转换为图片
     * @param pdf PDF文档对象
     * @param pageIndex 页码索引，从0开始
     * @return 转换后的BufferedImage对象
     * @throws IOException 如果转换过程中发生I/O错误
     */
    private static BufferedImage convertPdfPageToImage(PdfDocument pdf, int pageIndex) throws IOException {
        return pdf.saveAsImage(pageIndex);
    }

    /**
     * 方法：从图片中识别文字
     * @param image 要识别的BufferedImage对象
     * @param language OCR语言，支持语言包括 English, Chinese, Chinesetraditional, French, German, Japanese 和 Korean
     * @param modelPath OCR模型路径
     * @return 识别出的文字
     * @throws OcrException 如果OCR识别过程中发生错误
     * @throws IOException 如果转换BufferedImage为InputStream时发生I/O错误
     */
    private static String recognizeTextFromImage(BufferedImage image, String language, String modelPath) throws OcrException, IOException {
        // 将BufferedImage转换为InputStream
        ByteArrayOutputStream os = new ByteArrayOutputStream();
        ImageIO.write(image, "PNG", os);
        InputStream inputStream = new ByteArrayInputStream(os.toByteArray());

        // 配置并初始化OCR扫描器
        OcrScanner scanner = new OcrScanner();
        ConfigureOptions configureOptions = new ConfigureOptions();
        configureOptions.setLanguage(language); // 设置OCR识别语言
        configureOptions.setModelPath(modelPath); // 设置OCR模型路径
        scanner.ConfigureDependencies(configureOptions); // 应用配置

        // 识别文本
        scanner.Scan(inputStream, OCRImageFormat.Png);
        return scanner.getText().toString(); // 返回识别出的文本
    }

    /**
     * 方法：将识别出的文本保存到文件
     * @param text 识别出的文字
     * @param filePath 保存文件的路径
     */
    private static void saveTextToFile(String text, String filePath) {
        try (FileWriter writer = new FileWriter(filePath)) {
            writer.write(text);
            System.out.println("文本已成功保存到 " + filePath);
        } catch (IOException e) {
            System.out.println("保存文本文件时发生错误。");
            e.printStackTrace();
        }
    }
}

注意事项

OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好，不模糊、倾斜的图片，可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同，一些特定语言或字体可能识别效果较差。因此在识别完成后，最好再人工校正一遍。

总结

到此这篇关于Java如何识别图片或扫描PDF中文字的文章就介绍到这了,更多相关Java识别图片或扫描PDF文字内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Java中常用的类型转换(推荐)
这篇文章主要介绍了Java中常用的类型转换(推荐)的相关资料,非常不错，具有参考借鉴价值，需要的朋友可以参考下
2016-06-06
Java局部打印效果不同问题解决方案
这篇文章主要介绍了Java局部打印效果不同问题解决方案,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
详解Springboot Oauth2 Server搭建Oauth2认证服务
这篇文章主要介绍了Springboot Oauth2 Server 搭建Oauth2认证服务，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2019-05-05
基于SpringBoot实现多文件批量下载并打包为ZIP压缩包的完整解决方案
在日常的 Web 开发中,文件下载是非常常见的功能需求,而多文件批量下载并打包为 ZIP 压缩包更是高频场景（比如批量下载合同、图片、报表等）,本文将基于 SpringBoot 框架,手把手教你实现这一功能,从核心思路到完整代码,让你快速掌握,需要的朋友可以参考下
2026-02-02
SpringBoot发送异步邮件流程与实现详解
这篇文章主要介绍了SpringBoot发送异步邮件流程与实现详解,Servlet阶段邮件发送非常的复杂,如果现代化的Java开发是那个样子该有多糟糕,现在SpringBoot中集成好了邮件发送的东西,而且操作十分简单容易上手,需要的朋友可以参考下
2024-01-01
关于@ApiImplicitParams、ApiImplicitParam的使用说明
这篇文章主要介绍了关于@ApiImplicitParams、ApiImplicitParam的使用说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-10-10
使用RestTemplate调用RESTful API的代码示例
在开发 Web 应用程序时，调用 RESTful API 是一个常见的任务，本文将介绍如何使用 RestTemplate 调用 RESTful API，并提供示例代码，感兴趣的同学可以跟着小编一起来看看
2023-06-06
基于jstl 标签的使用介绍
本篇文章小编为大家介绍，基于jstl 标签的使用介绍，需要的朋友参考下
2013-04-04
kafka 重新分配partition和调整replica的数量实现
当需要提升Kafka集群的性能和负载均衡时,可通过kafka-reassign-partitions.sh命令手动重新分配Partition,增加节点后,可以将Topic的Partition的Leader节点均匀分布,以提高写入和消费速度,感兴趣的可以了解一下
2022-03-03
springMVC利用FastJson接口返回json数据相关配置详解
本篇文章主要介绍了springMVC利用FastJson接口返回json数据相关配置详解，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-06-06