Java如何识别图片或扫描PDF中的文字详解

 更新时间:2025年01月09日 09:48:11   作者:nuclear2011  
这篇文章主要介绍了Java如何识别图片或扫描PDF中文字的相关资料,介绍了Java中使用Spire.OCRforJava库来识别图片和扫描PDF文件中的文字,需要的朋友可以参考下

前言

图片和扫描文件通常以非文本格式存在,这使得其中的文字信息难以直接编辑、搜索或复制。为了解决这个问题,光学字符识别(OCR)技术应运而生。OCR通过分析图像中的文字区域并将其转换为可编辑的文本,从而使用户能够轻松提取信息。如今,OCR已被广泛应用于文档数字化、数据提取和文字搜索等多个领域,为各行各业带来了便利。这篇博客将探讨如何在Java中通过OCR技术识别图片和扫描PDF文件中的文字。

使用工具

首先,我们需要选择一个适当的OCR库。在Java中有许多OCR库,本文所使用的是Spire.OCR for Java。在使用该库前,我们需要完成以下两个步骤:

1. 在程序中引入该库的JAR

你可以通过官方地址下载该库的JAR包或通过Maven仓库拉取,依赖如下:

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.ocr</artifactId>
    <version>1.9.19</version>
</dependency>

2. 下载Spire.OCR for Java的模型

Spire.OCR for Java提供了支持Win 64位和Linux 64位操作系统的两种模型。我们需要根据自己的系统下载适合的模型:

下载完成后,将它解压并保存到特定的目录下。

完成以上两个步骤后,我们就可以使用该库实现识别图片和扫描PDF中的文字。

Java识别图片中的文字

以下是使用Spire.OCR for Java识别图片中的文字的主要步骤:

  • 创建OcrScanner类的实例。
  • 创建 ConfigureOptions 类的实例来设置扫描器配置。
  • 使用ConfigureOptions.setLanguage()方法指定文本识别的语言,默认设置为English(支持语言:English,Chinese,Chinesetraditional,French,German,Japanese和Korean)。
  • 使用ConfigureOptions.setModelPath()方法指定模型的路径。
  • 使用OcrScanner.ConfigureDependencies()方法将配置应用于扫描器。
  • 使用OcrScanner.scan()方法识别图片中的文本。
  • 使用OcrScanner.getText()方法从 OcrScanner 对象获取已识别的文本。
  • 将获取的文本写入文本文件。

以下代码示例展示了如何识别图片中的文本并将结果保存到文本文件中:

import com.spire.ocr.ConfigureOptions;
import com.spire.ocr.OcrException;
import com.spire.ocr.OcrScanner;

import java.io.FileWriter;
import java.io.IOException;

public class ExtractTextFromImage {

    public static void main(String[] args) {
        // 从图片中识别文字
        String scannedText = scanTextFromImage("测试.png", "Chinese", "E:\\win-x64");

        // 保存识别出的文字到文件
        saveTextToFile(scannedText, "图片文字.txt");
    }

    /**
     * 方法:从图片中识别文字
     * @param imagePath 图片路径
     * @param language OCR语言,支持语言包括 English, Chinese, Chinesetraditional, French, German, Japanese 和 Korean
     * @param modelPath OCR模型路径
     * @return 识别出的文字
     */
    private static String scanTextFromImage(String imagePath, String language, String modelPath) {
        try {
            // 创建OcrScanner类的对象
            OcrScanner scanner = new OcrScanner();
            // 设置扫描器配置
            ConfigureOptions configureOptions = new ConfigureOptions();
            // 指定文本识别的语言
            configureOptions.setLanguage(language);
            // 指定模型的路径
            configureOptions.setModelPath(modelPath);
            // 将配置应用于扫描器
            scanner.ConfigureDependencies(configureOptions);

            // 识别图片中的文本
            scanner.scan(imagePath);
            // 获取识别出的文本
            return scanner.getText().toString();
        } catch (OcrException e) {
            System.out.println("OCR 文字识别时发生错误。");
            e.printStackTrace();
            return "";
        }
    }

    /**
     * 方法:将识别出的文字保存到文件
     * @param text 识别出的文字
     * @param filePath 保存文件路径
     */
    private static void saveTextToFile(String text, String filePath) {
        // 将获取的文本写入文本文件
        try (FileWriter writer = new FileWriter(filePath)) {
            writer.write(text);
            System.out.println("文本已成功保存到 " + filePath);
        } catch (IOException e) {
            System.out.println("保存文本文件时发生错误。");
            e.printStackTrace();
        }
    }
}

原始图片和识别结果:

Java识别扫描PDF中的文字

Spire.OCR for Java库并不支持直接处理PDF,因此要从扫描的 PDF 中提取文本,我们首先需要将 PDF 文档转换为图片。对于此任务,我们将使用Spire.PDF for Java库。转换完成后,再利用 Spire.OCR 从生成的图片中提取文本。

你可以通过该地址下载Spire.PDF for Java的JAR包或者通过Maven仓库拉取:

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.pdf</artifactId>
    <version>10.10.0</version>
</dependency>

以下代码示例展示了如何识别扫描PDF中的文本并将结果保存到文本文件中:

import com.spire.ocr.ConfigureOptions;
import com.spire.ocr.OCRImageFormat;
import com.spire.ocr.OcrException;
import com.spire.ocr.OcrScanner;
import com.spire.pdf.PdfDocument;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;

public class ExtractTextFromScannedPDF {

    public static void main(String[] args) throws OcrException, IOException {
        // 打开扫描PDF文档
        PdfDocument pdf = new PdfDocument();
        pdf.loadFromFile("扫描.pdf");

        // 从扫描PDF文档中识别文字并将结果保存到文本文件
        for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {
            BufferedImage image = convertPdfPageToImage(pdf, pageIndex);
            String scannedText = recognizeTextFromImage(image, "Chinese", "E:\\win-x64");

            // 将识别出的文本保存到文件
            saveTextToFile(scannedText, "扫描PDF文字.txt");
        }
    }

    /**
     * 方法:将PDF页面转换为图片
     * @param pdf PDF文档对象
     * @param pageIndex 页码索引,从0开始
     * @return 转换后的BufferedImage对象
     * @throws IOException 如果转换过程中发生I/O错误
     */
    private static BufferedImage convertPdfPageToImage(PdfDocument pdf, int pageIndex) throws IOException {
        return pdf.saveAsImage(pageIndex);
    }

    /**
     * 方法:从图片中识别文字
     * @param image 要识别的BufferedImage对象
     * @param language OCR语言,支持语言包括 English, Chinese, Chinesetraditional, French, German, Japanese 和 Korean
     * @param modelPath OCR模型路径
     * @return 识别出的文字
     * @throws OcrException 如果OCR识别过程中发生错误
     * @throws IOException 如果转换BufferedImage为InputStream时发生I/O错误
     */
    private static String recognizeTextFromImage(BufferedImage image, String language, String modelPath) throws OcrException, IOException {
        // 将BufferedImage转换为InputStream
        ByteArrayOutputStream os = new ByteArrayOutputStream();
        ImageIO.write(image, "PNG", os);
        InputStream inputStream = new ByteArrayInputStream(os.toByteArray());

        // 配置并初始化OCR扫描器
        OcrScanner scanner = new OcrScanner();
        ConfigureOptions configureOptions = new ConfigureOptions();
        configureOptions.setLanguage(language); // 设置OCR识别语言
        configureOptions.setModelPath(modelPath); // 设置OCR模型路径
        scanner.ConfigureDependencies(configureOptions); // 应用配置

        // 识别文本
        scanner.Scan(inputStream, OCRImageFormat.Png);
        return scanner.getText().toString(); // 返回识别出的文本
    }

    /**
     * 方法:将识别出的文本保存到文件
     * @param text 识别出的文字
     * @param filePath 保存文件的路径
     */
    private static void saveTextToFile(String text, String filePath) {
        try (FileWriter writer = new FileWriter(filePath)) {
            writer.write(text);
            System.out.println("文本已成功保存到 " + filePath);
        } catch (IOException e) {
            System.out.println("保存文本文件时发生错误。");
            e.printStackTrace();
        }
    }
}

注意事项

OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好,不模糊、倾斜的图片,可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同,一些特定语言或字体可能识别效果较差。因此在识别完成后,最好再人工校正一遍。

总结

到此这篇关于Java如何识别图片或扫描PDF中文字的文章就介绍到这了,更多相关Java识别图片或扫描PDF文字内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • eclipse下ini设置详情

    eclipse下ini设置详情

    这篇文章主要介绍了eclipse下ini设置详情,需要的朋友可以参考下
    2017-10-10
  • servlet监听实现统计在线人数功能 附源码下载

    servlet监听实现统计在线人数功能 附源码下载

    这篇文章主要为大家详细介绍了servlet监听统计在线人数的实现方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-04-04
  • Java 抽象类特点总结

    Java 抽象类特点总结

    在面向对象的概念中,所有的对象都是通过类来描绘的,但是反过来,并不是所有的类都是用来描绘对象的,如果一个类中没有包含足够的信息来描绘一个具体的对象,这样的类就是抽象类
    2021-10-10
  • Java 对接飞书多维表格使用详解(微服务)

    Java 对接飞书多维表格使用详解(微服务)

    本文详细介绍了如何基于飞书开放平台在微服务项目中操作飞书多维表格,包括应用创建、授权、多维表数据操作(新增、查询、删除)以及Java SDK实现等步骤,感兴趣的朋友跟随小编一起看看吧
    2024-12-12
  • 利用Java编写24点小游戏的实例代码

    利用Java编写24点小游戏的实例代码

    这篇文章主要给大家介绍了关于如何利用Java编写24点小游戏的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Java关键词final示例解读

    Java关键词final示例解读

    这篇文章主要介绍了Java关键词final解读,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-12-12
  • Spring之Scope注解使用详解

    Spring之Scope注解使用详解

    spring的bean管理中,每个bean都有对应的scope。在BeanDefinition中就已经指定scope,默认的RootBeanDefinition的scope是prototype类型,使用@ComponentScan扫描出的BeanDefinition会指定是singleton,最常使用的也是singleton
    2023-02-02
  • java程序设计语言的优势及特点

    java程序设计语言的优势及特点

    在本篇文章里小编给大家分享的是一篇关于java程序设计语言的优势及特点的内容,需要的朋友们可以学习参考下。
    2020-02-02
  • SpringMVC之DispatcherServlet配置文件应该放在哪里呢

    SpringMVC之DispatcherServlet配置文件应该放在哪里呢

    这篇文章主要介绍了SpringMVC之DispatcherServlet配置文件应该放在哪里的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-11-11
  • 详解SpringMVC解决跨域的两种方案

    详解SpringMVC解决跨域的两种方案

    本篇文章主要介绍了详解SpringMVC解决跨域的两种方案,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08

最新评论