Java截取PDF内容为图片的实现代码

 更新时间:2025年10月27日 09:35:02   作者:何中应  
本文主要介绍了java实现截取PDF指定页并进行图片格式转换功能的技术要点,通过实例代码,文章详细地介绍了如何使用java语言来实现PDF指定页的截取和图片格式转换,需要的朋友可以参考下

说明:本文介绍 Java 中,如何去截取 PDF 中的内容,转为一张图片

场景

如下,该 PDF 结构分两部分,一部分个人信息,一部分内容信息,我希望截取其中的内容信息,截取成一张图片。

在这里插入图片描述

实现

首先,在生成该 PDF 的模板文件中,需要截取的部分(内容信息)前后,加入截取点,字体设置为白色,这样截取点内容看不出来

在这里插入图片描述

编写代码,找到 PDF 中截取点文本内容的位置,获取坐标,并计算

import com.hezy.pojo.TextPositionWithDTO;
import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import org.springframework.stereotype.Component;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.io.StringWriter;
import java.util.List;

/**
 * PDF裁剪图片处理器
 */
@Component
@Slf4j
public class PDFCutToImageExtractor {

    /**
     * 开始截取点
     */
    private static final String START_POINT = "cut-start";

    /**
     * 结束截取点
     */
    private static final String END_POINT = "cut-end";

    /**
     * 外边距
     */
    private static final int MARGIN = 20;

    /**
     * 提取PDF文件中范围的图片
     *
     * @param file PDF文件
     * @return 图片字节数组
     * @throws IOException
     */
    public byte[] extractImage(File file) throws IOException {
        try (PDDocument document = PDDocument.load(file)) {
            // 1.获取文本位置
            PDFRenderer renderer = new PDFRenderer(document);
            // 开始和结束位置
            TextPositionWithDTO startPos = findTextPosition(document, START_POINT);
            TextPositionWithDTO endPos = findTextPosition(document, END_POINT);

            // 查询判断(截取点是手动放到模板中的,不可能找不到,但还是判断一下)
            if (startPos == null) {
                return null;
            }
            if (endPos == null) {
                return null;
            }

            // 获取截取点坐标
            float startY = startPos.getTextPosition().getY();
            float endY = endPos.getTextPosition().getY();
            log.info("截取点坐标:startY={}, endY={}", startY, endY);

            // 2.渲染图像,计算截取位置
            BufferedImage pageImage = renderer.renderImageWithDPI(startPos.getPageIndex(), 144);
            // 定义缩放,这个是按照上一行代码中设置的dpi来计算的,144/72=2
            int scale = 2;
            // 左上角坐标 = 起始截取点的x、y坐标
            float startX = startPos.getTextPosition().getX();
            int imgStartX = Math.round(startX * scale) - MARGIN;
            int imgStartY = Math.round(startY * scale);

            // 图片宽度 = 页宽 - 起始点x坐标
            int width = pageImage.getWidth() - imgStartX;

            // 图片高度 = 两截取点高度差
            int height = Math.round(Math.abs(startY - endY) * scale) - MARGIN;

            // 判断是否计算有误
            if (width <= 0 || height <= 0 || imgStartX < 0 || imgStartY < 0) {
                return null;
            }

            // 3.裁剪图像,将截取后的图像文件写入到新的文件流中,返回字节数组
            log.info("imgStartX: {}, imgStartY: {}, width: {}, height: {}", imgStartX, imgStartY, width, height);
            BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);
            ByteArrayOutputStream bos = new ByteArrayOutputStream();
            try {
                ImageIO.write(croppedImage, "png", bos);
                return bos.toByteArray();
            } catch (IOException e) {
                log.warn("写入失败: {}", e.getMessage());
                return null;
            }
        }
    }

    /**
     * 查询文本位置
     * 作用:该方法的作用是根据传入的文本关键字查询文本在文档中所在的位置
     *
     * @param document   PDF文档
     * @param searchText 要查询的文本
     * @return 文本位置DTO
     * @throws IOException
     */
    private TextPositionWithDTO findTextPosition(PDDocument document, String searchText) throws IOException {

        /**
         * 内部类:继承PDFTextStripper,提取PDF文档中的文本内容
         */
        class MyTextStripper extends PDFTextStripper {

            /**
             * 找到的文本位置
             */
            private TextPosition foundPosition = null;

            public MyTextStripper() throws IOException {
                super();
            }

            @Override
            protected void writeString(String text, List<TextPosition> textPositions) {
                // 文本位置,不为空,说明已经找到了,直接返回
                if (foundPosition != null) {
                    return;
                }

                // 拿到PDF文档中的文本内容
                StringBuilder stringBuilder = new StringBuilder();
                for (TextPosition pos : textPositions) {
                    String unicode = pos.getUnicode();
                    if (unicode != null) {
                        stringBuilder.append(unicode);
                    }
                }
                String segmentText = stringBuilder.toString();

                // 用传入的文本与PDF文档中的文本来匹配,indexOf()方法是精髓
                int index = segmentText.indexOf(searchText);
                // 大于等于0,说明文档中有匹配到的文本
                if (index >= 0) {
                    int charCount = 0;
                    for (TextPosition pos : textPositions) {
                        String unicode = pos.getUnicode();
                        if (unicode == null) {
                            continue;
                        }
                        if (charCount == index) {
                            foundPosition = pos;
                            return;
                        }
                        charCount++;
                    }
                }
            }

            public TextPosition getResult() {
                return foundPosition;
            }
        }

        // 遍历每一页
        int totalPages = document.getNumberOfPages();
        for (int pageIndex = 0; pageIndex < totalPages; pageIndex++) {
            MyTextStripper stripper = new MyTextStripper();
            stripper.setStartPage(pageIndex + 1);
            stripper.setEndPage(pageIndex + 1);

            // 处理当前页
            stripper.writeText(document, new StringWriter());
            TextPosition result = stripper.getResult();
            if (result != null) {
                return new TextPositionWithDTO(result, pageIndex);
            }
        }
        return null;
    }
}

注意以下两点:

  • PDF 文本坐标(TextPosition),是以文件左下角为原点的,越靠右x越大,越靠上y越大;
  • pageImage.getSubimage()方法,四个参数定义截取的矩形范围,前两个参数定义矩形左上角坐标,后两个参数定义矩形的宽和高

(源码说明)

在这里插入图片描述

TextPositionWithDTO 对象

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.pdfbox.text.TextPosition;

import java.io.Serializable;

/**
 * 文本位置DTO
 */
@Data
@AllArgsConstructor
@NoArgsConstructor
public class TextPositionWithDTO implements Serializable {

    /**
     * 文本位置
     */
    private TextPosition textPosition;

    /**
     * 文本位置所在的页码
     */
    private int pageIndex;
}

controller,写一个接口,先获取 PDF 文件,再截取其中的图片

    @PostMapping("/pdf2")
    public byte[] pdf2() throws IOException {
        // 1.获取PDF
        byte[] pdf = pdfService.pdf();

        // 2.将PDF写入到本地临时文件夹中
        File pdfFile = FileUtil.createTempFile("demo", ".pdf", null, true);
        FileUtil.writeBytes(pdf, pdfFile);

        // 3.构建响应
        String fileName = "截取图片.png";
        String encodedFileName = URLEncoder.encode(fileName, StandardCharsets.UTF_8);
        HttpHeaders headers = new HttpHeaders();
        headers.setContentType(MediaType.APPLICATION_OCTET_STREAM);
        headers.setContentDispositionFormData("attachment", encodedFileName);

        // 4.截取图片,获取图片的字节数组
        byte[] image = pdfCutToImageExtractor.extractImage(pdfFile);
        
        // 5.删除临时存储的PDF文件
        FileUtil.del(pdfFile);

        // 6.返回
        return ResponseEntity.ok()
                .headers(headers)
                .body(image).getBody();
    }

以上代码引入的 pom.xml 文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.7.12</version>
        <relativePath/>
    </parent>

    <groupId>com.hezy</groupId>
    <artifactId>pdf_demo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <dependencies>
        <!-- web依赖,用调用接口的方式来测试 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!-- 生成pdf依赖 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-thymeleaf</artifactId>
        </dependency>
        <dependency>
            <groupId>com.github.jhonnymertz</groupId>
            <artifactId>java-wkhtmltopdf-wrapper</artifactId>
            <version>1.3.1-RELEASE</version>
        </dependency>

        <!-- lombok依赖 -->
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>

        <!-- PDF截取依赖 -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.27</version>
        </dependency>

        <!-- 工具类 -->
        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.8.6</version>
        </dependency>
    </dependencies>

    <!-- 编译插件,定义编译语言,后面用于构建PDF文件byte[],返回给前端 -->
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>17</source>
                    <target>17</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

关于如何生成 PDF 文件,参看文章:Java将数据写入到PDF文件

启动,测试,先来看看生成的 PDF 文件,没有影响,看不出“内容信息”前后的截取点文本

在这里插入图片描述

但是,复制空白处,还是可以粘贴出来的

在这里插入图片描述

看看截取图片效果,几乎完美,把“内容信息”部分的文本内容完全截取出来了。

在这里插入图片描述

总结

以上是我自己思考的一种将 PDF 文件中某部分内容截取成图片的方案。

这种方法是可以根据填充的内容多少动态适应,但如果你截取的内容位置是固定的,就更好办了,直接在下面这个截取方法里写死范围

BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);

另外,还需要考虑截取内容跨页的情况,涉及跨页,以上代码可能需要调整。

以上就是Java截取PDF内容为图片的实现代码的详细内容,更多关于Java截取PDF内容为图片的资料请关注脚本之家其它相关文章!

相关文章

  • Java中常见的文件拷贝方式小结

    Java中常见的文件拷贝方式小结

    这篇文章主要为大家详细介绍了JAVA 四种拷贝文件的方式,分析一下他们对内存使用的方式和各自应用的场景,其实也是对之前学过的知识做一个回顾吧,快跟随小编一起学习起来吧
    2024-03-03
  • 简单了解java标识符的作用和命名规则

    简单了解java标识符的作用和命名规则

    这篇文章主要介绍了简单了解java标识符的作用和命名规则,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-01-01
  • jsoup 框架的使用小结

    jsoup 框架的使用小结

    jsoup 是一款基于Java的HTML解析器,它提供了一套非常省力的API,不但能直接解析某个URL地址、HTML文本内容,而且还能通过类似于 DOM、CSS 或者jQuery的方法来操作数据,所以jsoup也可以被当做爬虫工具使用,这篇文章主要介绍了jsoup使用,需要的朋友可以参考下
    2023-04-04
  • hashMap扩容时应该注意这些死循环问题

    hashMap扩容时应该注意这些死循环问题

    今天给大家带来的是关于Java的相关知识,文章围绕着hashMap扩容时的死循环问题展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • Java中Lock锁基本使用方法详解

    Java中Lock锁基本使用方法详解

    锁是一种工具,用于控制对共享资源的访问Lock和synchronized是最常见的两个锁,他们都能够达到线程安全的目录,这篇文章主要给大家介绍了关于Java中Lock锁基本使用方法详解的相关资料,需要的朋友可以参考下
    2023-11-11
  • Mybatis模糊查询和动态sql语句的用法

    Mybatis模糊查询和动态sql语句的用法

    今天小编就为大家分享一篇关于Mybatis模糊查询和动态sql语句的用法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • Java 多线程Synchronized和Lock的区别

    Java 多线程Synchronized和Lock的区别

    这篇文章主要介绍了Java 多线程Synchronized和Lock的区别,帮助大家更好的理解和使用Java,感兴趣的朋友可以了解下
    2021-01-01
  • 如何用java获取指定日期是第几周

    如何用java获取指定日期是第几周

    这篇文章主要给大家介绍了关于如何用java获取指定日期是第几周的相关资料,在开始之前我们需要先了解如何获取当前日期所在的年份以及第几周,在Java中可以使用Calendar类来获取这些信息,需要的朋友可以参考下
    2023-09-09
  • Java Exchanger并发类使用方法

    Java Exchanger并发类使用方法

    这篇文章主要介绍了Java Exchanger并发类使用方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • Java LocalCache 本地缓存的实现实例

    Java LocalCache 本地缓存的实现实例

    本篇文章主要介绍了Java LocalCache 本地缓存的实现实例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
    2017-05-05

最新评论