SpringBoot集成Tess4J实现OCR的示例代码

 更新时间:2024年12月27日 11:02:17   作者:HBLOG  
Tess4J是一个基于Tesseract OCR引擎的Java接口,可以用来识别图像中的文本,说白了,就是封装了它的API,让Java可以直接调用,本文给大家介绍了SpringBoot集成Tess4J实现OCR的示例,需要的朋友可以参考下

1.什么是Tess4j?

  • Tesseract是一个开源的光学字符识别(OCR)引擎,它可以将图像中的文字转换为计算机可读的文本。支持多种语言和书面语言,并且可以在命令行中执行。它是一个流行的开源OCR工具,可以在许多不同的操作系统上运行。
  • Tess4J是一个基于Tesseract OCR引擎的Java接口,可以用来识别图像中的文本,说白了,就是封装了它的API,让Java可以直接调用。

Tess4J API 提供的功能:

  • 直接识别支持的文件
  • 识别图片流
  • 识别图片的某块区域
  • 将识别结果保存为 TEXT/ HOCR/ PDF/ UNLV/ BOX
  • 通过设置取词的等级,提取识别出来的文字
  • 获得每一个识别区域的具体坐标范围
  • 调整倾斜的图片
  • 裁剪图片
  • 调整图片分辨率
  • 从粘贴板获得图像
  • 克隆一个图像(目的:创建一份一模一样的图片,与原图在操作修改上,不相 互影响)
  • 图片转换为二进制、黑白图像、灰度图像
  • 反转图片颜色

2.环境准备

Tesseract OCR库通过训练数据来学习不同语言和字体的特征,以便更好地识别图片中的文字。在安装Tesseract OCR库时,通常会生成一个包含多个子文件夹的训练数据文件夹,其中每个子文件夹都包含了特定语言或字体的训练数据。

tess4j:
  datapath: D:/tmp

PS:这里我没有用官方Github文档中给的地址,因为太慢了,找了一个下载比较快的,你们可以往下拉找到win64位的安装即可

3.代码工程

实验目的

实现图片上的文字识别

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>springboot-demo</artifactId>
        <groupId>com.et</groupId>
        <version>1.0-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>Tess4j</artifactId>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-autoconfigure</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
            <scope>test</scope>
        </dependency>
        <!-- tess4j -->
        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>4.5.4</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>
    </dependencies>
</project>

controller

package com.et.tess4j.controller;

import com.et.tess4j.service.OcrService;
import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.TesseractException;
import org.springframework.http.MediaType;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

@RestController
@AllArgsConstructor

public class HelloWorldController {
    @RequestMapping("/hello")
    public Map<String, Object> showHelloWorld(){
        Map<String, Object> map = new HashMap<>();
        map.put("msg", "HelloWorld");
        return map;
    }
   private final OcrService ocrService;

   @PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
   public String recognizeImage(@RequestParam("file") MultipartFile file) throws TesseractException, IOException {

      return ocrService.recognizeText(file);
   }
}

service

package com.et.tess4j.service;

import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.*;
import org.springframework.stereotype.Service;
import org.springframework.web.multipart.MultipartFile;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;

@Service
@AllArgsConstructor
public class OcrService {

    private final Tesseract tesseract;

  
    public String recognizeText(MultipartFile imageFile) throws TesseractException, IOException {

        InputStream sbs = new ByteArrayInputStream(imageFile.getBytes());
        BufferedImage bufferedImage = ImageIO.read(sbs);

        return tesseract.doOCR(bufferedImage);
    }
}

config

package com.et.tess4j.config;

import net.sourceforge.tess4j.Tesseract;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;


@Configuration
public class TesseractOcrConfiguration {

   @Value("${tess4j.datapath}")
   private String dataPath;

   @Bean
   public Tesseract tesseract() {

      Tesseract tesseract = new Tesseract();
      tesseract.setDatapath(dataPath);
      tesseract.setLanguage("chi_sim");
      return tesseract;
   }
}

以上只是一些关键代码

4.测试

  • 启动Spring Boot应用
  • 传入一张带文字的图片
  • 可以看到返回识别后的结果

到此这篇关于SpringBoot集成Tess4J实现OCR的示例代码的文章就介绍到这了,更多相关SpringBoot Tess4J实现OCR内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Java如何将处理完异常之后的程序能够从抛出异常的地点向下执行?

    Java如何将处理完异常之后的程序能够从抛出异常的地点向下执行?

    今天小编就为大家分享一篇关于Java如何将处理完异常之后的程序能够从抛出异常的地点向下执行?,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-04-04
  • Java异步非阻塞编程的几种方式总结

    Java异步非阻塞编程的几种方式总结

    这篇文章主要介绍了Java异步非阻塞编程的几种方式总结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • Java泛型extends及super区别实例解析

    Java泛型extends及super区别实例解析

    这篇文章主要介绍了Java泛型extends及super区别实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • 对ArrayList和LinkedList底层实现原理详解

    对ArrayList和LinkedList底层实现原理详解

    今天小编就为大家分享一篇对ArrayList和LinkedList底层实现原理详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Java实现批量向mysql写入数据的方法

    Java实现批量向mysql写入数据的方法

    这篇文章主要介绍了Java实现批量向mysql写入数据的方法,涉及java基于JDBC连接mysql数据库及写入数据的相关操作技巧,非常简单实用,需要的朋友可以参考下
    2017-12-12
  • Java使用Spire.Presentation for Java库合并PowerPoint的技术教程

    Java使用Spire.Presentation for Java库合并PowerPoint的技术教

    在现代企业和个人开发中,文档处理是不可或缺的一环,尤其是在报告演示、内容整合等场景下,PowerPoint 文件的自动化处理需求日益增长,本文将深入探讨如何利用 Java 编程语言,结合强大的 Spire.Presentation for Java库,实现PowerPoiont文件的合并
    2026-01-01
  • springmvc请求参数的绑定的项目实践

    springmvc请求参数的绑定的项目实践

    本文主要介绍了springmvc请求参数的绑定的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-11-11
  • Jmeter非GUI模式运行分布式测试

    Jmeter非GUI模式运行分布式测试

    这篇文章主要介绍了Jmeter非GUI模式运行分布式测试,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • Java、Javascript、Javaweb三者的区别及说明

    Java、Javascript、Javaweb三者的区别及说明

    这篇文章主要介绍了Java、Javascript、Javaweb三者的区别及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Spring框架开发IOC两种创建工厂方法详解

    Spring框架开发IOC两种创建工厂方法详解

    这篇文章主要介绍了Spring框架IOC两种创建工厂方法详解,文中附含详细的代码示例分别对静态方法和实例方法创建工厂作了简要的分析
    2021-09-09

最新评论