Java截取PDF内容为图片的实现代码

更新时间：2025年10月27日 09:35:02 作者：何中应

本文主要介绍了java实现截取PDF指定页并进行图片格式转换功能的技术要点,通过实例代码,文章详细地介绍了如何使用java语言来实现PDF指定页的截取和图片格式转换,需要的朋友可以参考下

场景

如下，该 PDF 结构分两部分，一部分个人信息，一部分内容信息，我希望截取其中的内容信息，截取成一张图片。

在这里插入图片描述

实现

首先，在生成该 PDF 的模板文件中，需要截取的部分（内容信息）前后，加入截取点，字体设置为白色，这样截取点内容看不出来

在这里插入图片描述

编写代码，找到 PDF 中截取点文本内容的位置，获取坐标，并计算

import com.hezy.pojo.TextPositionWithDTO;
import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import org.springframework.stereotype.Component;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.io.StringWriter;
import java.util.List;

/**
 * PDF裁剪图片处理器
 */
@Component
@Slf4j
public class PDFCutToImageExtractor {

    /**
     * 开始截取点
     */
    private static final String START_POINT = "cut-start";

    /**
     * 结束截取点
     */
    private static final String END_POINT = "cut-end";

    /**
     * 外边距
     */
    private static final int MARGIN = 20;

    /**
     * 提取PDF文件中范围的图片
     *
     * @param file PDF文件
     * @return 图片字节数组
     * @throws IOException
     */
    public byte[] extractImage(File file) throws IOException {
        try (PDDocument document = PDDocument.load(file)) {
            // 1.获取文本位置
            PDFRenderer renderer = new PDFRenderer(document);
            // 开始和结束位置
            TextPositionWithDTO startPos = findTextPosition(document, START_POINT);
            TextPositionWithDTO endPos = findTextPosition(document, END_POINT);

            // 查询判断（截取点是手动放到模板中的，不可能找不到，但还是判断一下）
            if (startPos == null) {
                return null;
            }
            if (endPos == null) {
                return null;
            }

            // 获取截取点坐标
            float startY = startPos.getTextPosition().getY();
            float endY = endPos.getTextPosition().getY();
            log.info("截取点坐标：startY={}, endY={}", startY, endY);

            // 2.渲染图像，计算截取位置
            BufferedImage pageImage = renderer.renderImageWithDPI(startPos.getPageIndex(), 144);
            // 定义缩放，这个是按照上一行代码中设置的dpi来计算的，144/72=2
            int scale = 2;
            // 左上角坐标 = 起始截取点的x、y坐标
            float startX = startPos.getTextPosition().getX();
            int imgStartX = Math.round(startX * scale) - MARGIN;
            int imgStartY = Math.round(startY * scale);

            // 图片宽度 = 页宽 - 起始点x坐标
            int width = pageImage.getWidth() - imgStartX;

            // 图片高度 = 两截取点高度差
            int height = Math.round(Math.abs(startY - endY) * scale) - MARGIN;

            // 判断是否计算有误
            if (width <= 0 || height <= 0 || imgStartX < 0 || imgStartY < 0) {
                return null;
            }

            // 3.裁剪图像，将截取后的图像文件写入到新的文件流中，返回字节数组
            log.info("imgStartX: {}, imgStartY: {}, width: {}, height: {}", imgStartX, imgStartY, width, height);
            BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);
            ByteArrayOutputStream bos = new ByteArrayOutputStream();
            try {
                ImageIO.write(croppedImage, "png", bos);
                return bos.toByteArray();
            } catch (IOException e) {
                log.warn("写入失败: {}", e.getMessage());
                return null;
            }
        }
    }

    /**
     * 查询文本位置
     * 作用：该方法的作用是根据传入的文本关键字查询文本在文档中所在的位置
     *
     * @param document   PDF文档
     * @param searchText 要查询的文本
     * @return 文本位置DTO
     * @throws IOException
     */
    private TextPositionWithDTO findTextPosition(PDDocument document, String searchText) throws IOException {

        /**
         * 内部类：继承PDFTextStripper，提取PDF文档中的文本内容
         */
        class MyTextStripper extends PDFTextStripper {

            /**
             * 找到的文本位置
             */
            private TextPosition foundPosition = null;

            public MyTextStripper() throws IOException {
                super();
            }

            @Override
            protected void writeString(String text, List<TextPosition> textPositions) {
                // 文本位置，不为空，说明已经找到了，直接返回
                if (foundPosition != null) {
                    return;
                }

                // 拿到PDF文档中的文本内容
                StringBuilder stringBuilder = new StringBuilder();
                for (TextPosition pos : textPositions) {
                    String unicode = pos.getUnicode();
                    if (unicode != null) {
                        stringBuilder.append(unicode);
                    }
                }
                String segmentText = stringBuilder.toString();

                // 用传入的文本与PDF文档中的文本来匹配，indexOf()方法是精髓
                int index = segmentText.indexOf(searchText);
                // 大于等于0，说明文档中有匹配到的文本
                if (index >= 0) {
                    int charCount = 0;
                    for (TextPosition pos : textPositions) {
                        String unicode = pos.getUnicode();
                        if (unicode == null) {
                            continue;
                        }
                        if (charCount == index) {
                            foundPosition = pos;
                            return;
                        }
                        charCount++;
                    }
                }
            }

            public TextPosition getResult() {
                return foundPosition;
            }
        }

        // 遍历每一页
        int totalPages = document.getNumberOfPages();
        for (int pageIndex = 0; pageIndex < totalPages; pageIndex++) {
            MyTextStripper stripper = new MyTextStripper();
            stripper.setStartPage(pageIndex + 1);
            stripper.setEndPage(pageIndex + 1);

            // 处理当前页
            stripper.writeText(document, new StringWriter());
            TextPosition result = stripper.getResult();
            if (result != null) {
                return new TextPositionWithDTO(result, pageIndex);
            }
        }
        return null;
    }
}

注意以下两点：

PDF 文本坐标（TextPosition），是以文件左下角为原点的，越靠右x越大，越靠上y越大；
pageImage.getSubimage()方法，四个参数定义截取的矩形范围，前两个参数定义矩形左上角坐标，后两个参数定义矩形的宽和高

（源码说明）

在这里插入图片描述

TextPositionWithDTO 对象

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.pdfbox.text.TextPosition;

import java.io.Serializable;

/**
 * 文本位置DTO
 */
@Data
@AllArgsConstructor
@NoArgsConstructor
public class TextPositionWithDTO implements Serializable {

    /**
     * 文本位置
     */
    private TextPosition textPosition;

    /**
     * 文本位置所在的页码
     */
    private int pageIndex;
}

controller，写一个接口，先获取 PDF 文件，再截取其中的图片

    @PostMapping("/pdf2")
    public byte[] pdf2() throws IOException {
        // 1.获取PDF
        byte[] pdf = pdfService.pdf();

        // 2.将PDF写入到本地临时文件夹中
        File pdfFile = FileUtil.createTempFile("demo", ".pdf", null, true);
        FileUtil.writeBytes(pdf, pdfFile);

        // 3.构建响应
        String fileName = "截取图片.png";
        String encodedFileName = URLEncoder.encode(fileName, StandardCharsets.UTF_8);
        HttpHeaders headers = new HttpHeaders();
        headers.setContentType(MediaType.APPLICATION_OCTET_STREAM);
        headers.setContentDispositionFormData("attachment", encodedFileName);

        // 4.截取图片，获取图片的字节数组
        byte[] image = pdfCutToImageExtractor.extractImage(pdfFile);
        
        // 5.删除临时存储的PDF文件
        FileUtil.del(pdfFile);

        // 6.返回
        return ResponseEntity.ok()
                .headers(headers)
                .body(image).getBody();
    }

以上代码引入的 pom.xml 文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.7.12</version>
        <relativePath/>
    </parent>

    <groupId>com.hezy</groupId>
    <artifactId>pdf_demo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <dependencies>
        <!-- web依赖，用调用接口的方式来测试 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!-- 生成pdf依赖 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-thymeleaf</artifactId>
        </dependency>
        <dependency>
            <groupId>com.github.jhonnymertz</groupId>
            <artifactId>java-wkhtmltopdf-wrapper</artifactId>
            <version>1.3.1-RELEASE</version>
        </dependency>

        <!-- lombok依赖 -->
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>

        <!-- PDF截取依赖 -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.27</version>
        </dependency>

        <!-- 工具类 -->
        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.8.6</version>
        </dependency>
    </dependencies>

    <!-- 编译插件，定义编译语言，后面用于构建PDF文件byte[]，返回给前端 -->
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>17</source>
                    <target>17</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

关于如何生成 PDF 文件，参看文章：Java将数据写入到PDF文件

启动，测试，先来看看生成的 PDF 文件，没有影响，看不出“内容信息”前后的截取点文本

在这里插入图片描述

但是，复制空白处，还是可以粘贴出来的

在这里插入图片描述

看看截取图片效果，几乎完美，把“内容信息”部分的文本内容完全截取出来了。

在这里插入图片描述

总结

以上是我自己思考的一种将 PDF 文件中某部分内容截取成图片的方案。

这种方法是可以根据填充的内容多少动态适应，但如果你截取的内容位置是固定的，就更好办了，直接在下面这个截取方法里写死范围

BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);

另外，还需要考虑截取内容跨页的情况，涉及跨页，以上代码可能需要调整。

以上就是Java截取PDF内容为图片的实现代码的详细内容，更多关于Java截取PDF内容为图片的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

IntelliJ IDEA使用maven实现tomcat的热部署
这篇文章主要介绍了IntelliJ IDEA使用maven实现tomcat的热部署,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-07-07
MyBatis-Plus拦截器实现数据权限控制的示例
本文主要介绍了MyBatis-Plus拦截器实现数据权限控制的示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02
eclipse下搭建hibernate5.0环境的步骤(图文)
这篇文章主要介绍了eclipse下搭建hibernate5.0环境的步骤(图文)，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-05-05
Java对接乐橙摄像头详细步骤(绑定设备/直播/控制)
大华乐橙SDK（LechangeSDK）是一套由大华科技推出的智能安防领域专用软件开发工具包,下面这篇文章主要介绍了Java对接乐橙摄像头(绑定设备/直播/控制)的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
2025-12-12
详解Spring框架注解扫描开启之配置细节
本篇文章主要介绍了详解Spring框架注解扫描开启之配置细节，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-08-08
centos下编译安装mysql报错解决方案
今天在centos6.2下面源码编译安装mysql的时，在编译mysql的时候报了一个蛋蛋的错误,本文提供详细解决方案
2012-11-11
IDEA意外退出问题及解决
文章主要讲述了解决在使用IDEA拉取项目时,由于堆内存不足导致IDEA自动退出的问题,通过调整IDEA的堆内存大小（Xms和Xmx）,并在执行完毕后重新打开IDEA,最终成功解决问题
2026-04-04
IDEA中Mybatis的xml文件报错问题及解决
在IntelliJ IDEA中,MyBatis的XML文件报错,提示'expected statement, got 'id'',通过找到并修改LanguageInjections的Mybatis相关配置,去掉最前面的sql前缀,禁用默认配置文件,解决了每次重启IDEA后配置失效的问题
2025-12-12
SpringBoot @ExceptionHandler与@ControllerAdvice异常处理详解
在Spring Boot应用的开发中，不管是对底层数据库操作，对业务层操作，还是对控制层操作，都会不可避免的遇到各种可预知的，不可预知的异常需要处理，如果每个处理过程都单独处理异常，那么系统的代码耦合度会很高，工作量大且不好统一，以后维护的工作量也很大
2022-10-10
Spring的Bean注入解析结果BeanDefinition详解
这篇文章主要介绍了Spring的Bean注入解析结果BeanDefinition详解,BeanDefinition描述了一个bean实例,拥有属性值、构造参数值和具体实现的其他信息,其是一个bean的元数据,xml中配置的bean元素会被解析成BeanDefinition对象,需要的朋友可以参考下
2023-12-12

Java截取PDF内容为图片的实现代码

目录

场景

实现

总结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具