Java使用Apache Tika从PDF文件中提取文本

更新时间：2025年04月21日 08:39:11 作者：学亮编程手记

Apache Tika 是一个内容分析工具包,它能够从各种类型的文档中提取元数据和文本内容,下面我们就来看看如何使用Apache Tika从PDF文件中提取文本吧

Apache Tika 是一个内容分析工具包，它能够从各种类型的文档中提取元数据和文本内容。Tika 支持多种文件格式，包括但不限于 PDF、Word 文档、Excel 表格、PowerPoint 演示文稿、HTML、XML、图像文件等。Tika 的设计目标是提供一种简单且一致的方式来处理不同格式的文件。

支持得格式

文件格式	包库	蒂卡班
XML	org.apache.tika.parser.xml	XMLParser
HTML	org.apache.tika.parser.html它使用了Tagsoup Library	HtmlParser
MS-Office复合文档Ole2到2007年ooxml 2007年起	org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml，它使用Apache Poi库	OfficeParser（OLE2） OOXMLParser（ooxml）
OpenDocument格式openoffice	org.apache.tika.parser.odf	OpenOfficeParser
便携式文件格式（PDF）	org.apache.tika.parser.pdf和这个包使用Apache PdfBox库	PDFParser
电子出版物格式（数字图书）	org.apache.tika.parser.epub	EpubParser
富文本格式	org.apache.tika.parser.rtf	RTFParser
压缩和包装格式	org.apache.tika.parser.pkg和这个包使用Common压缩库	PackageParser和CompressorParser及其子类
文字格式	org.apache.tika.parser.txt	TXTParser
Feed和联合格式	org.apache.tika.parser.feed	FeedParser
音频格式	org.apache.tika.parser.audio和org.apache.tika.parser.mp3	AudioParser MidiParser Mp3-适用于mp3parser
Imageparsers	org.apache.tika.parser.jpeg	JpegParser-用于jpeg图像
Videoformats	org.apache.tika.parser.mp4和org.apache.tika.parser.video这个解析器在内部使用简单算法来解析flash视频格式	Mp4parser FlvParser
java类文件和jar文件	org.apache.tika.parser.asm	ClassParser CompressorParser
Mobxformat（电子邮件）	org.apache.tika.parser.mbox	MobXParser
Cad格式	org.apache.tika.parser.dwg	DWGParser
FontFormats	org.apache.tika.parser.font	TrueTypeParser
可执行程序和库	org.apache.tika.parser.executable	ExecutableParser

主要功能

元数据提取：Tika 可以从文件中提取出诸如作者、创建日期、修改日期等元数据信息。

文本提取：Tika 能够解析文件并提取其中的文本内容，这对于需要对文档进行全文搜索或自然语言处理的应用非常有用。

语言检测：Tika 还具备识别文档所用语言的能力。

MIME 类型检测：通过文件的内容来确定其 MIME 类型（例如 application/pdf 或 text/plain）。

使用场景

搜索引擎：在构建企业级搜索系统时，可以使用 Tika 来索引非结构化数据。

数据分析：对于需要从大量不同格式的文档中收集信息的数据分析项目来说，Tika 提供了一个强大的工具集。

文档管理系统：帮助实现更智能的文档管理解决方案，自动分类和标记上传的文件。

安全审计：检查传入或传出组织边界的文件是否包含敏感信息。

如何使用 Apache Tika

1. 安装

你可以通过 Maven 将 Tika 添加到你的 Java 项目中。在 pom.xml 文件里加入以下依赖：

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.4.1</version> <!-- 请根据最新版本调整 -->
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>2.4.1</version> <!-- 同上 -->
</dependency>

2. 示例代码

下面是一个简单的例子，演示如何使用 Tika 从 PDF 文件中提取文本：

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try (FileInputStream input = new FileInputStream(new File("example.pdf"))) {
            // 创建 Tika 实例
            Tika tika = new Tika();
            
            // 获取文件的 MIME 类型
            String mimeType = tika.detect(input);
            System.out.println("Detected MIME type: " + mimeType);

            // 重置输入流位置
            input.getChannel().position(0);

            // 准备解析器
            BodyContentHandler handler = new BodyContentHandler(-1); // -1 表示不限制输出大小
            Metadata metadata = new Metadata();
            ParseContext context = new ParseContext();

            // 解析 PDF 并获取内容
            PDFParser parser = new PDFParser();
            parser.parse(input, handler, metadata, context);

            // 输出结果
            System.out.println("Extracted text:\n" + handler.toString());
            System.out.println("Metadata:");
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }
        } catch (IOException | SAXException | TikaException e) {
            e.printStackTrace();
        }
    }
}

这段代码首先检测了给定文件的 MIME 类型，然后使用 PDFParser 对象来解析该文件，并打印出提取到的文本以及一些基本的元数据信息。

到此这篇关于Java使用Apache Tika从PDF文件中提取文本的文章就介绍到这了,更多相关Java Apache Tika提取PDF文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

你什么是Elastic Stack(ELK)
这篇文章主要介绍了你什么是Elastic Stack(ELK),ELK是三款软件的简称，分别是Elasticsearch、Logstash、Kibana组成,需要的朋友可以参考下
2023-04-04
DragChartPanel可拖拽曲线应用详解
这篇文章主要为大家详细介绍了DragChartPanel可拖拽曲线的应用，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-12-12
深入探究Java @MapperScan实现原理
之前是直接在Mapper类上面添加注解@Mapper，这种方式要求每一个mapper类都需要添加此注解，麻烦。通过使用@MapperScan可以指定要扫描的Mapper类的包的路径，这篇文章深入探究Java @MapperScan的实现原理
2023-01-01
spring boot如何配置静态路径详解(404出现的坑）
这篇文章主要给大家介绍了关于spring boot如何配置静态路径的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2022-02-02
Spring Cache自定义缓存key和过期时间的实现代码
使用 Redis的客户端 Spring Cache时,会发现生成 key中会多出一个冒号,而且有一个空节点的存在,查看源码可知,这是因为 Spring Cache默认生成key的策略就是通过两个冒号来拼接,本文给大家介绍了Spring Cache自定义缓存key和过期时间的实现,需要的朋友可以参考下
2024-05-05
Java纯代码实现导出PDF功能
在项目开发中，产品的需求越来越奇葩啦，开始文件下载都是下载为excel的，做着做着需求竟然变了，要求能导出pdf，本文就来和大家分享一下Java实现导出PDF的常用方法吧
2023-07-07
JAVA 内部类详解及实例
这篇文章主要介绍了JAVA 内部类详解及实例的相关资料,需要的朋友可以参考下
2016-11-11
短网址的原理与生成方法（Java实现）
这篇文章主要给大家介绍了关于短网址的原理与生成方法，利用的是Java实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10
java统计汉字字数的方法示例
这篇文章主要介绍了java统计汉字字数的方法,结合实例形式分析了java正则判定、字符串遍历及统计相关操作技巧,需要的朋友可以参考下
2017-05-05
Java fastdfs客户端实现上传下载文件
这篇文章主要介绍了Java fastdfs客户端实现上传下载文件,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-10-10