Java使用itextpdf找出PDF中文字的坐标

 更新时间:2025年01月16日 10:37:41   作者:VipSoft  
这篇文章主要为大家详细介绍了Java如果使用itextpdf找出PDF中文字的坐标,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下

前言

找到位置,签名的话见:Java操作itextpdf实现PDF添加文字,图片和签名

新项目可以尝试一下 iText 7 , 我这边是老项目所以还是继续使用 iText 5,主打够用

iText 5 没有直接提供获取文本精确位置的功能。它只能提取文本内容,而文本位置通常需要通过额外的解析和计算来确定。

思路:在同一行,且一些词是连续的,前后没有空白字符串,即认为是一个词

需要特殊处理:

  • “姓 名:” 中间有空格
  • 读取PDF时,有些肉眼看上去是一行的字,可能会被解析为多个,导致找不到满足条件的关键字

效果如下

添加引用

<itextpdf.version>5.5.13</itextpdf.version>
<itext-asian.version>5.2.0</itext-asian.version>

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itextpdf</artifactId>
    <version>${itextpdf.version}</version>
</dependency>
<!--没有这个的话,添加文字会报错-->
<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itext-asian</artifactId>
    <version>${itext-asian.version}</version>
</dependency>

添加工具类

package com.vipsoft.web;

import cn.hutool.core.util.StrUtil;
import com.itextpdf.text.pdf.parser.ImageRenderInfo;
import com.itextpdf.text.pdf.parser.RenderListener;
import com.itextpdf.text.pdf.parser.TextRenderInfo;
import com.itextpdf.awt.geom.Rectangle2D.Float;

import java.util.ArrayList;
import java.util.List;


public class KeyWordPositionListener implements RenderListener {

    /**
     * 用来存储页面上所有的词
     * - 排除连续空格
     */
    private List<WordItem> allItems = new ArrayList<WordItem>();

    /**
     * 搜索关键词
     */
    private String keyWord;
    /**
     * 是否是新的词
     */
    private boolean newWord = false;
    /**
     * 记录上一个字符 -- 用于判断是否是一组词
     */
    private WordItem prevItem = new WordItem();

    /**
     * 已找到的词信息
     */
    private WordItem wordItem;

    public WordItem getWordItem() {
        return wordItem;
    }

    public void setKeyWord(String keyWord) {
        this.keyWord = keyWord;
    }

    @Override
    public void beginTextBlock() {
        // TODO Auto-generated method stub
    }

    /**
     * 方法会在解析文本时被调用,它检查每个文本片段是否包含关键词,并记录其位置。
     *
     * @param renderInfo
     */
    @Override
    public void renderText(TextRenderInfo renderInfo) {
        if (wordItem != null || StrUtil.isEmpty(keyWord)) {
            return;
        }
        // 读取PDF时,有些肉眼看上去是一行的字,可能会被解析为多个,导致找不到满足条件的关键字,这里做了简单的处理
        // 即如果一些词是连续的,前后没有空白字符串,即认为是一个词
        String content = renderInfo.getText().trim();
        Float textRectangle = renderInfo.getBaseline().getBoundingRectange();
        if (StrUtil.isEmpty(content)) {
            // 当前扫出来的是空字符串,视新一个新的词即将开始
            newWord = true;
//            System.out.println("扫出空的,跳过  x=" + textRectangle.getX() + " y=" + textRectangle.getY());
            return;
        }
        if (StrUtil.isEmpty(prevItem.getContent())) {
            // 这段可以不需要
            // prevItem 中还没有存内容的,当前文字也视为新的词
            newWord = true;
//            System.out.println("prevItem 中还没有存内容的,视为新词");
        }
        if (StrUtil.isNotEmpty(prevItem.getContent()) && (Math.abs((int) prevItem.getY() - (int) textRectangle.getY()) > 5)) {
            //Y 正负2内,视为同一行
            System.out.println("不在同一行:prevItem=" + prevItem.getContent() + " x=" + (int) prevItem.getX() + " y=" + (int) prevItem.getY());
            System.out.println("不在同一行:content=" + content + " x=" + (int) textRectangle.getX() + " y=" + (int) textRectangle.getY());
            System.out.println("当前内容和prevItem 不在同一行,视为新词");
            newWord = true;
        }
        if (newWord) {
            //重置
            System.out.println("重置 prevItem: " + prevItem.getContent());
            prevItem = new WordItem();
        }
        System.out.println("已扫到字:content=" + content + " x=" + textRectangle.getX() + " y=" + textRectangle.getY());
        String preContent = StrUtil.isNotEmpty(prevItem.getContent()) ? prevItem.getContent() : "";
        prevItem.setContent(preContent + content);
        prevItem.setX(textRectangle.getX());
        prevItem.setY(textRectangle.getY());
        if (prevItem.getContent().contains(keyWord)) {
            //System.out.println("找到了【" + keyWord + "】 " + prevItem.getContent() + " x= " + prevItem.getX() + " y= " + prevItem.getY());
            wordItem = prevItem;
        }
        newWord = false;
    }

    @Override
    public void endTextBlock() {
        // TODO Auto-generated method stub
    }

    @Override
    public void renderImage(ImageRenderInfo renderInfo) {
        // TODO Auto-generated method stub
    }

}

/**
 * 存储一个词的信息
 */
class WordItem {
    private String content;
    private double x;
    private double y;

   ... getters and setters ...
}

调用

@Test
void searchText() throws Exception {
    String filepath = "D:\\Report.pdf";
    String keyWord = "审核医生";
    int page = 1;
    PdfReader pdfReader = new PdfReader(filepath);
    //int pageNum = pdfReader.getNumberOfPages(); //循环没页PDF查找
    PdfReaderContentParser pdfReaderContentParser = new PdfReaderContentParser(pdfReader);
    KeyWordPositionListener renderListener = new KeyWordPositionListener();
    renderListener.setKeyWord(keyWord);
    pdfReaderContentParser.processContent(page, renderListener);
    WordItem wordItem = renderListener.getWordItem();
    if (wordItem == null) {
        System.out.println("没找到 " + keyWord);
        return;
    }
	pdfReader.close() //记得要关闭,否则文件想做其它操作会报被占用
    System.out.println("找到了【" + keyWord + "】 " + wordItem.getContent() + " x= " + wordItem.getX() + " y= " + wordItem.getY());
}

到此这篇关于Java使用itextpdf找出PDF中文字的坐标的文章就介绍到这了,更多相关Java itextpdf找出PDF文字坐标内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • java实现Dijkstra算法

    java实现Dijkstra算法

    这篇文章主要为大家详细介绍了java实现Dijkstra算法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-05-05
  • java并发编程之cas详解

    java并发编程之cas详解

    这篇文章主要介绍了java并发编程之cas详解,涉及cas使用场景和cas用作原子操作等内容,具有一定参考价值,需要的朋友可以了解下。
    2017-11-11
  • Java文件与IO流操作原理详细分析

    Java文件与IO流操作原理详细分析

    在java中提供有对于文件操作系统的支持,这个支持在java.io.File类中进行了定义,也就是说在整个java.io包中File类是唯一一个与文件本身操作有关的类(创建,删除,重命名)有关的类,而如果想要进行File类的操作,我们需要提供有完整的路径支持,而后可以调用相应的方法进行处理
    2022-09-09
  • 使用Java实现在PDF插入页眉页脚

    使用Java实现在PDF插入页眉页脚

    在处理PDF文档时,有时需要为文档中的每一页添加页眉和页脚,这篇文章主要为大家详细介绍了如何使用Java为PDF文件添加页眉、页脚,感兴趣的可以了解下
    2024-03-03
  • Java实战之基于swing的QQ邮件收发功能实现

    Java实战之基于swing的QQ邮件收发功能实现

    这篇文章主要介绍了Java实战之基于swing的QQ邮件收发功能实现,文中有非常详细的代码示例,对正在学习java的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-04-04
  • Java如何实现单链表的增删改查

    Java如何实现单链表的增删改查

    这篇文章主要给大家介绍了关于Java如何实现单链表的增删改查的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • Springboot如何利用拦截器拦截请求信息收集到日志详解

    Springboot如何利用拦截器拦截请求信息收集到日志详解

    一些系统经常需要关注用户请求的具体信息,如用户信息、请求参数、响应结果等等,在SpringBoot应用中可通过拦截器的方式统一处理,下面这篇文章主要给大家介绍了关于Springboot如何利用拦截器拦截请求信息收集到日志的相关资料,需要的朋友可以参考下
    2021-08-08
  • SpringBoot整合WebSocket实现后端向前端发送消息的实例代码

    SpringBoot整合WebSocket实现后端向前端发送消息的实例代码

    WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据,下面这篇文章主要给大家介绍了关于SpringBoot整合WebSocket实现后端向前端发送消息的相关资料,需要的朋友可以参考下
    2023-03-03
  • java实现百度坐标的摩卡托坐标与火星坐标转换的示例

    java实现百度坐标的摩卡托坐标与火星坐标转换的示例

    这篇文章主要介绍了java实现百度坐标的摩卡托坐标与火星坐标转换的示例,需要的朋友可以参考下
    2014-03-03
  • 史上最全的IDEA快捷键总结

    史上最全的IDEA快捷键总结

    这篇文章主要介绍了史上最全的IDEA快捷键总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-01-01

最新评论