Java实现从Word文档中提取文本和图像

 更新时间:2026年03月25日 10:03:37   作者:缺点内向  
在 Java 开发项目中,处理 Microsoft Word 文档是常见场景,例如,内容管理系统需要批量解析文档文本用于搜索索引,数据迁移工具需分离图像以便独立存储,本文介绍如何借助 Spire.Doc for Java 库实现这一功能,需要的朋友可以参考下

引言

在 Java 开发项目中,处理 Microsoft Word 文档是常见场景。例如,内容管理系统需要批量解析文档文本用于搜索索引,数据迁移工具需分离图像以便独立存储,或内容分析应用要提取素材进行二次加工。此时,从 Word 文件中精确提取文本和图像就显得尤为重要。

本文介绍如何借助 Spire.Doc for Java 库实现这一功能。该库提供文档加载、对象遍历和元素提取的 API,支持 DOC 和 DOCX 等格式,无需安装 Microsoft Office,即可完成操作。以下内容以开发者视角,逐步说明实现步骤,附带完整可运行代码。

1. 环境准备

确保开发环境为 JDK 8 或更高版本。推荐使用 Maven 管理依赖,在 pom.xml 中添加以下配置:

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.com/nexus/content/groups/public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.doc</artifactId>
        <version>14.3.1</version>
    </dependency>
</dependencies>

若不使用 Maven,可从官方站点下载 Spire.Doc.jar 并添加到项目 classpath。准备好测试文档,例如 sample.docx,其中包含普通文本、标题和嵌入图像。

2. 提取文本

提取文本的核心是加载文档后调用 getText() 方法,该方法会返回文档中所有可见文本内容(包括正文、页眉、页脚等),以字符串形式呈现。后续可将其保存为 .txt 文件或进一步处理(如分词、存储到数据库)。

完整示例代码如下:

import com.spire.doc.Document;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromWord {
    public static void main(String[] args) throws IOException {
        // 创建 Document 对象并加载 Word 文档
        Document document = new Document();
        document.loadFromFile("sample.docx");
        // 获取文档全部文本
        String text = document.getText();
        // 保存为 TXT 文件
        writeStringToTxt(text, "extracted_text.txt");
        System.out.println("文本提取完成,已保存至 extracted_text.txt");
    }
    private static void writeStringToTxt(String content, String txtFileName) throws IOException {
        try (FileWriter writer = new FileWriter(txtFileName)) {
            writer.write(content);
        }
    }
}

说明

  • loadFromFile() 支持绝对路径或相对路径,自动识别 DOC/DOCX。
  • getText() 返回的字符串已去除大部分控制字符,但保留换行和空格。
  • 使用 try-with-resources 关闭流,避免资源泄漏。
    若只需提取特定部分(如仅正文),可遍历 document.getSections()Paragraph 对象,自定义过滤逻辑。

运行后,extracted_text.txt 即包含完整文本,可直接用于后续业务处理。

3. 提取图像

Word 文档中的图像以 DocPicture 对象形式存在,可能嵌套在段落、文本框、表格或页眉中。因此不能简单遍历顶层元素,而需采用广度优先搜索(BFS)遍历整个文档对象树。

核心步骤:

  1. 加载文档。
  2. 使用队列存储复合对象(ICompositeObject),从根节点 Document 开始遍历。
  3. 遇到子节点为 Picture 类型时,提取 BufferedImage 并保存。

完整代码如下:

import com.spire.doc.*;
import com.spire.doc.documents.*;
import com.spire.doc.fields.*;
import com.spire.doc.interfaces.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.*;

public class ExtractImagesFromWord {
    public static void main(String[] args) throws IOException {
        // 加载文档
        Document document = new Document();
        document.loadFromFile("sample.docx");

        // BFS 遍历队列
        Queue<ICompositeObject> nodes = new LinkedList<>();
        nodes.add(document);

        // 存储提取的图像
        List<BufferedImage> images = new ArrayList<>();

        // 遍历文档树
        while (!nodes.isEmpty()) {
            ICompositeObject node = nodes.poll();
            for (int i = 0; i < node.getChildObjects().getCount(); i++) {
                IDocumentObject child = node.getChildObjects().get(i);
                if (child instanceof ICompositeObject) {
                    // 复合对象继续入队
                    nodes.add((ICompositeObject) child);
                } else if (child.getDocumentObjectType() == DocumentObjectType.Picture) {
                    // 提取图像
                    DocPicture picture = (DocPicture) child;
                    images.add(picture.getImage());
                }
            }
        }

        // 保存所有图像(确保 output 目录存在)
        File outputDir = new File("output");
        if (!outputDir.exists()) {
            outputDir.mkdirs();
        }
        for (int i = 0; i < images.size(); i++) {
            File file = new File(outputDir, String.format("image_%d.png", i));
            ImageIO.write(images.get(i), "PNG", file);
            System.out.println("已保存图像: " + file.getName());
        }

        System.out.println("共提取 " + images.size() + " 张图像");
    }
}

说明

  • 使用 LinkedList 实现队列,实现 BFS 遍历,确保所有嵌套图像都被发现。
  • DocumentObjectType.Picture 是判断图像的关键枚举。
  • ImageIO.write() 支持 PNG、JPG 等格式,可根据 picture.getImageType() 动态选择。
  • 建议提前创建 output 目录,或添加 mkdirs() 逻辑。

该方法能完整提取文档内所有独立图像,包括形状中嵌入的图片。

4. 注意事项与最佳实践

  • 异常处理:实际项目中应包裹 loadFromFileImageIO 操作,捕获 IOExceptionException
  • 性能:对于超大文档(数百页),遍历过程耗时可接受,但建议分批处理或增加进度提示。
  • 格式支持:同时兼容 .doc(旧版)和 .docx(新版)。
  • 权限与路径:确保程序对输入文件有读取权限,对输出目录有写入权限。
  • 进一步扩展:可结合 Paragraph.getChildObjects() 实现按章节提取,或将图像直接转换为 Base64 用于 Web 展示。
  • 许可证:免费版存在功能限制(如水印),生产环境建议评估商业版需求。

5. 总结

通过 Spire.Doc for Java 的 DocumentICompositeObjectDocPicture 等 API,从 Word 文档中提取文本和图像变得简洁高效。上述两个示例只需几十行代码即可运行,适合快速集成到各类 Java 项目中。开发者可根据实际业务,在此基础上扩展为批量处理、按条件过滤或结合其他库(如 Apache Tika 做进一步解析)。

完整代码可直接复制到 IDE 测试,建议准备不同结构的 Word 样本文档验证效果。掌握这一技能后,Word 文档处理将不再是开发瓶颈。

以上就是Java实现从Word文档中提取文本和图像的详细内容,更多关于Java提取Word文本和图像的资料请关注脚本之家其它相关文章!

相关文章

  • Mybatis批量更新报错问题

    Mybatis批量更新报错问题

    这篇文章主要介绍了Mybatis批量更新报错的问题及解决办法,包括mybatis批量更新的两种方式,需要的的朋友参考下
    2017-01-01
  • gradle构建工具和java不兼容错误的解决方案

    gradle构建工具和java不兼容错误的解决方案

    这篇文章主要介绍了如何解决AS中Gradle和Java版本不兼容的问题,主要解决方案包括升级Gradle版本或降级Java版本,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2025-02-02
  • java中类和对象的知识点总结

    java中类和对象的知识点总结

    在本篇文章里小编给大家整理了一篇关于java中类和对象的知识点总结,有需要的朋友们可以学习下。
    2020-12-12
  • SpringBoot 项目搭建的 4 种常用方式(从入门到实践)

    SpringBoot 项目搭建的 4 种常用方式(从入门到实践)

    本文将详细介绍 4 种常用的 SpringBoot 项目搭建方式,无论你是新手还是有经验的开发者,都能找到适合自己的方式快速上手,感兴趣的朋友一起看看吧
    2025-07-07
  • Java程序执行过程及内存机制详解

    Java程序执行过程及内存机制详解

    本讲将介绍Java代码是如何一步步运行起来的,还会介绍Java程序所占用的内存是被如何管理的:堆、栈和方法区都各自负责存储哪些内容,感兴趣的朋友跟随小编一起看看吧
    2020-12-12
  • Mybatis-Plus实现公共字段自动赋值的方法

    Mybatis-Plus实现公共字段自动赋值的方法

    这篇文章主要介绍了Mybatis-Plus实现公共字段自动赋值的方法,涉及到通用字段自动填充的最佳实践总结,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-07-07
  • Spring事件监听基本原理与使用详解

    Spring事件监听基本原理与使用详解

    这篇文章主要介绍了Spring事件监听基本原理与使用详解,Spring的事件监听机制和发布订阅机制是很相似的:发布了一个事件后,监听该类型事件的所有监听器会触发相应的处理逻辑,需要的朋友可以参考下
    2024-01-01
  • Spring加载properties文件的方法

    Spring加载properties文件的方法

    这篇文章主要为大家详细介绍了Spring加载properties文件的两种方法,一是通过xml方式,另一种方式是通过注解方式,感兴趣的小伙伴们可以参考一下
    2016-06-06
  • JAVA中StackOverflowError错误的解决

    JAVA中StackOverflowError错误的解决

    这篇文章主要介绍了JAVA中StackOverflowError错误的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • Java网络编程中的TCP/UDP详解

    Java网络编程中的TCP/UDP详解

    这篇文章主要介绍了Java网络编程中的TCP/UDP详解,网络编程是指编写运行在多个设备的程序,这些设备都通过网络连接起来,java.net 包中 J2SE 的 API 包含有类和接口,它们提供低层次的通信细节,需要的朋友可以参考下
    2023-12-12

最新评论