Java使用itextpdf实现PDF转文本以及转图片

 更新时间:2025年01月09日 09:34:39   作者:信计2102罗铠威  
PDF转文本的插件常用的有pdfbox ,itextpdf 和 spire.pdf,本文主要介绍如何使用itextpdf实现PDF转文本以及转图片,需要的可以参考一下

前言

PDF转文本的插件常用的有:pdfbox ,itextpdf 和 spire.pdf 这几个,

itextpdf

导入itextpdf的maven依赖

        <!--2.itexpdf依赖-->
        <dependency>
            <groupId>com.itextpdf</groupId>
            <artifactId>itextpdf</artifactId>
            <version>5.5.13.3</version>
        </dependency>

提取文本代码

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
import java.io.*;

public class Main_itextPdf {

    public static void main(String[] args) throws Exception {
        System.out.println("------------------------pdf提取文本开始------------------------------");
            // 2. 加载PDF文件
        File file = new File("C:/Users/Administrator/Desktop/罗铠威个人简历.pdf");
            PdfReader reader = new PdfReader(file.getAbsolutePath());

            // 3. 解析PDF文件,获取页面数据
            int page = 1; // 获取第一页
            String text = PdfTextExtractor.getTextFromPage(reader, page);
            System.out.println(text);
            // 4. 关闭PdfReader
            reader.close();
        System.out.println("------------------------pdf提取文本结束------------------------------");
        }
}

pdf转换成图片代码

本地图片地址还是线上PDF的URL地址均支持

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.Scanner;

public class Main_itextPdf {

    public static void main(String[] args) throws Exception {
        System.out.println("------------------------pdf转图片开始------------------------------");
//        InputStream inputStream = readPdfFromUrl("http://minio.xxxx/xxxx.pdf");//线上的pdf文件
        InputStream inputStream = new FileInputStream("C:/Users/Administrator/Desktop/罗铠威个人简历.pdf") ;
        byte[] bytes = streamToByte(inputStream);
        InputStream newStream = new ByteArrayInputStream(bytes);
        //将pdf流转换成png图片流
        InputStream imgStream = pdfToImg(newStream);
        //存储图片imgStream到桌面
        ImageIO.write(ImageIO.read(imgStream), "png", new File("C:/Users/Administrator/Desktop/1.png"));
        System.out.println("------------------------pdf转图片结束------------------------------");
    }

    //支持线上pdf文件地址url
    public static InputStream readPdfFromUrl(String pdfUrl) throws IOException {
        URL url = new URL(pdfUrl);
        URLConnection connection = url.openConnection();
        BufferedInputStream bufferedInputStream = new BufferedInputStream(connection.getInputStream());
        return bufferedInputStream;
    }

    public static ByteArrayInputStream pdfToImg(InputStream pdfStream) throws Exception {
        // 将 InputStream 转换为 PDDocument
        PDDocument document = PDDocument.load(pdfStream);

        // 创建 PDFRenderer 对象
        PDFRenderer pdfRenderer = new PDFRenderer(document);

        // 选择第一页面来生成图片
        // 可以根据需要改成遍历所有页面并保存
        BufferedImage bufferedImage = pdfRenderer.renderImageWithDPI(0, 300); // 0 表示第一页,300 DPI 提供高质量图像

        // 将 BufferedImage 转换为 InputStream
        ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
        ImageIO.write(bufferedImage, "PNG", byteArrayOutputStream);
        document.close();
        // 返回一个新的 InputStream
        return new ByteArrayInputStream(byteArrayOutputStream.toByteArray());
    }
    public static byte[] streamToByte(InputStream inputStream) throws Exception {
        ByteArrayOutputStream buffer = new ByteArrayOutputStream();
        int nRead;
        byte[] data = new byte[1024];
        while ((nRead = inputStream.read(data, 0, data.length)) != -1) {
            buffer.write(data, 0, nRead);
        }
        buffer.flush();
        return buffer.toByteArray();
    }

}

到此这篇关于Java使用itextpdf实现PDF转文本以及转图片的文章就介绍到这了,更多相关Java itextpdf PDF转文本和图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解java.lang.NumberFormatException错误及解决办法

    详解java.lang.NumberFormatException错误及解决办法

    这篇文章主要介绍了详解java.lang.NumberFormatException错误及解决办法,本文详解的介绍了错误的解决方法,感兴趣的可以一起来了解一下
    2020-05-05
  • shiro整合swagger的注意事项

    shiro整合swagger的注意事项

    这篇文章主要介绍了shiro整合swagger需要注意的地方,帮助大家更好的理解和学习使用shiro框架,感兴趣的朋友可以了解下
    2021-05-05
  • maven+springboot打成jar包的方法

    maven+springboot打成jar包的方法

    这篇文章主要介绍了maven+springboot打成jar包的方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-10-10
  • Java集合删除元素ArrayList实例详解

    Java集合删除元素ArrayList实例详解

    这篇文章主要介绍了Java集合删除元素ArrayList实例详解的相关资料,需要的朋友可以参考下
    2017-04-04
  • Java 深入分析链表面试实例题目

    Java 深入分析链表面试实例题目

    链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的,本篇带你通过两个实例题目来深入探索
    2022-03-03
  • SpringBoot整合SpringSecurityOauth2实现鉴权动态权限问题

    SpringBoot整合SpringSecurityOauth2实现鉴权动态权限问题

    这篇文章主要介绍了SpringBoot整合SpringSecurityOauth2实现鉴权-动态权限,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • 解析Java并发Exchanger的使用

    解析Java并发Exchanger的使用

    Exchanger是java 5引入的并发类,Exchanger顾名思义就是用来做交换的。这里主要是两个线程之间交换持有的对象。当Exchanger在一个线程中调用exchange方法之后,会等待另外的线程调用同样的exchange方法。两个线程都调用exchange方法之后,传入的参数就会交换。
    2021-06-06
  • Java 八种基本数据类型最新整理

    Java 八种基本数据类型最新整理

    这篇文章给大家分享Java八种基本数据类型,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2025-06-06
  • 5分钟让你快速掌握java8 stream常用开发技巧

    5分钟让你快速掌握java8 stream常用开发技巧

    这篇文章主要给大家介绍了关于java8 stream常用开发技巧的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Spring在多线程环境下如何确保事务一致性问题详解

    Spring在多线程环境下如何确保事务一致性问题详解

    这篇文章主要介绍了Spring在多线程环境下如何确保事务一致性问题详解,说到异步执行,很多小伙伴首先想到Spring中提供的@Async注解,但是Spring提供的异步执行任务能力并不足以解决我们当前的需求,需要的朋友可以参考下
    2023-11-11

最新评论