Java使用PDFBox提取PDF文本并统计关键词出现的次数

更新时间：2025年05月16日 11:00:57 作者：码农研究僧

这篇文章主要介绍了Apache PDFBox库的基本知识,包括如何使用PDDocument加载PDF文件、PDFTextStripper提取文本以及如何进行词频统计,还提供了在线URL的处理方法,需要的朋友可以参考下

1. 基本知识

Apache PDFBox 是一个开源的 Java PDF 操作库，支持：

读取 PDF 文件内容（包括文字、图片、元数据）
创建和修改 PDF 文档
提取文本内容用于搜索、分析等操作

Maven相关的依赖：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.29</version>
</dependency>

需下载在进行统计：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFWordCounter {

    public static void main(String[] args) {
        String pdfPath = "sample.pdf";  // 替换为你的 PDF 文件路径
        String keyword = "Java";        // 要统计的词语

        try {
            // 加载 PDF 文档
            PDDocument document = PDDocument.load(new File(pdfPath));

            // 使用 PDFTextStripper 提取文本
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            document.close(); // 记得关闭文档资源

            // 转小写处理，方便忽略大小写
            String lowerText = text.toLowerCase();
            String lowerKeyword = keyword.toLowerCase();

            // 调用词频统计函数
            int count = countOccurrences(lowerText, lowerKeyword);

            System.out.println("词语 \"" + keyword + "\" 出现次数: " + count);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    // 使用 indexOf 遍历匹配词语出现次数
    private static int countOccurrences(String text, String word) {
        int count = 0;
        int index = 0;
        while ((index = text.indexOf(word, index)) != -1) {
            count++;
            index += word.length();
        }
        return count;
    }
}

上述的Demo详细分析下核心知识：

PDDocument.load(File)
用于加载 PDF 文件到内存中
PDFBox 使用 PDDocument 表示整个 PDF 对象，使用完后必须调用 close() 释放资源
PDFTextStripper
PDFBox 中用于提取文字的核心类，会尽可能“以阅读顺序”提取文本，适用于纯文字 PDF 文件。对于图像型扫描件则无效（需 OCR）
大小写不敏感统计
实际应用中搜索关键词通常需要忽略大小写，因此我们先统一将文本和关键词转换为小写
indexOf 实现词频统计
这是最基础也最直观的统计方法，效率较高，但不够精确
如果需要更精确（只统计完整单词），可以使用正则：

Pattern pattern = Pattern.compile("\\b" + Pattern.quote(word) + "\\b", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(text);
int count = 0;
while (matcher.find()) {
    count++;
}

2. 在线URL

2.1 英文

此处的Demo需要注意一个点：

注意点	说明
PDF 文件是否公开访问	不能访问受密码或登录保护的 PDF
文件大小	不建议下载和分析过大文件，可能导致内存问题
中文 PDF	若是扫描图片形式的中文 PDF，则 PDFBox 无法直接提取文本（需 OCR）
编码问题	若中文显示为乱码，可能是 PDF 没有内嵌字体

思路：

通过 URL.openStream() 获取在线 PDF 的输入流
使用 PDFBox 的 PDDocument.load(InputStream) 读取 PDF
用 PDFTextStripper 提取文本
用字符串方法或正则统计关键词频率

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.InputStream;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class OnlinePDFKeywordCounter {

    public static void main(String[] args) {
        String pdfUrl = "https://www.example.com/sample.pdf"; // 你的在线 PDF 链接
        String keyword = "Java";  // 需要统计的关键词

        try (InputStream inputStream = new URL(pdfUrl).openStream();
             PDDocument document = PDDocument.load(inputStream)) {

            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            // 使用正则匹配单词边界（忽略大小写）
            Pattern pattern = Pattern.compile("\\b" + Pattern.quote(keyword) + "\\b", Pattern.CASE_INSENSITIVE);
            Matcher matcher = pattern.matcher(text);

            int count = 0;
            while (matcher.find()) {
                count++;
            }

            System.out.println("词语 \"" + keyword + "\" 出现在在线 PDF 中的次数为: " + count);

        } catch (Exception e) {
            System.err.println("处理 PDF 时出错: " + e.getMessage());
            e.printStackTrace();
        }
    }
}

2.2 混合

方法	适用场景	是否支持中文
`indexOf`	中英文都适用	✅
`Pattern + \\b`	仅限英文单词匹配	❌ 中文不支持

正则表达式 \\b...\\b（表示“单词边界”）并不适用于中文

统计在想的URL PDF的词频：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.InputStream;
import java.net.URL;

public class OnlinePDFKeywordCounter {

    public static void main(String[] args) {
        String pdfUrl = "https://www.xxxx.pdf";
        String keyword = "管理层";  // 要统计的中文关键词

        try (InputStream inputStream = new URL(pdfUrl).openStream();
             PDDocument document = PDDocument.load(inputStream)) {

            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            // 直接用 indexOf 不区分大小写（对于中文没必要转小写）
            int count = countOccurrences(text, keyword);
            System.out.println("词语 \"" + keyword + "\" 出现次数为: " + count);

        } catch (Exception e) {
            System.err.println("处理 PDF 时出错: " + e.getMessage());
            e.printStackTrace();
        }
    }

    // 简单统计子串出现次数（适用于中文）
    private static int countOccurrences(String text, String keyword) {
        int count = 0;
        int index = 0;
        while ((index = text.indexOf(keyword, index)) != -1) {
            count++;
            index += keyword.length();
        }
        return count;
    }
}

截图如下：

以上就是Java使用PDFBox提取PDF文本并统计关键词出现的次数的详细内容，更多关于Java PDFBox提取PDF文本并统计的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

使用IntelliJ IDEA 2017.2.5 x64中的Spring Initializr插件快速创建Spring
这篇文章主要介绍了使用IntelliJ IDEA 2017.2.5 x64中的Spring Initializr插件快速创建Spring Boot/Cloud工程(图解),需要的朋友可以参考下
2018-01-01
SpringBoot整合flyway实现自动创建表的方法
这篇文章主要介绍了SpringBoot整合flyway实现自动创建表的方法,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-03-03
Java使用RedisTemplate如何根据前缀获取key列表
这篇文章主要介绍了Java使用RedisTemplate如何根据前缀获取key列表，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-06-06
java如何用正则表达式匹配与提取字符串
一位以前的同事在群里面突然发了个需求,要通过正则表达式来取值,下面这篇文章主要给大家介绍了关于java如何用正则表达式匹配与提取字符串的相关资料,需要的朋友可以参考下
2022-06-06
Java实现设计模式之责任链模式
责任链模式是一种行为设计模式，允许你将请求沿着处理链发送，然后处理者都可对其进行处理，完成后可以再将其传递给下一个处理者。下面将会举例说明什么是责任链模式，责任链模式该如何使用
2022-08-08
MyBatis中如何获取Oracle序列
文章介绍了在使用MyBatis时,如何通过获取序列的下一个值来完成某些功能操作,并在之后进行数据的添加操作,文中特别强调了在获取序列值后不能单独执行插入操作,否则会报错
2024-12-12
Java中的getBytes()方法使用详解
这篇文章主要介绍了Java中getBytes()方法使用的相关资料,getBytes()方法有多个重载形式,可以根据需要指定字符集来进行转换,文中通过代码介绍的非常详细,需要的朋友可以参考下
2025-05-05
利用Java实体bean对象批量数据传输处理方案小结
javabean是对面向对象思想的一种具体实施的表现,本文重点给大家介绍利用Java实体bean对象批量数据传输处理方案小结，本文通过两种方案给大家介绍的非常详细，感兴趣的朋友跟随小编一起看看吧
2021-05-05
Java并发中的ThreadLocal使用详解
ThreadLocal 是 Java 中实现线程局部变量的重要工具,它能让每个线程拥有自己独立的变量副本,从而在多线程环境下避免共享数据的竞争问题,下面给大家介绍java并发中的ThredLocal使用详解,感兴趣的朋友跟随小编一起看看吧
2026-03-03
基于binarywang封装的微信工具包生成二维码
这篇文章主要介绍了基于binarywang封装的微信工具包生成二维码,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11