C#获取Word格式文档页数的方法

 更新时间:2025年09月23日 10:53:39   作者:Humbunklung  
在C#编程中,处理Microsoft Office文档,特别是Word文档,是一项常见的任务,本文将详细介绍如何使用C#获取Word文档的页数,这些功能通常在自动化办公流程、报表生成或文档管理应用程序中非常有用,需要的朋友可以参考下

1. 背景

有时候,我们需要获取一个Word格式文档(docx)的页数,甚至在某一页做某些操作,如果我们使用COM+调用officewps这些商用软件,是相当方便的,而使用aspose.word这些商业库,也是短短几行代码的事情。然而,当程序跑在某些特定的环境(例如没有Office软件的环境),或者我们资金有限而又有道德洁癖(不愿意使用盗版),获取docx文件页数,这种看似简单的问题反而变得复杂,因为我们常用的开源库poi/npoiOpenXML SDK等,并没有提供这样的操作。
本着“自己动手,丰衣足食”的原则,那就自己手工写代码看看吧,顺道把坑踩一遍。

2. docx是一个zip

既然是要自己写代码处理这种问题,那么我们要回到问题的本质——word的docx文档究竟是什么?.docx 文件本质上就是一个 ZIP压缩包。我们将.docx 文件扩展名改为.zip,然后使用解压缩工具来打开它。解压后,你会发现其中包含许多XML文件和媒体文件(如下图),它们共同构成了Word文档的内容和格式。

可见,我们可以从这对xml文件着手,解决问题,而Word的这种docx文档有什么特点呢?我也请教了AI:

  • 基于 Open XML 标准:.docx 格式是微软Word(从2007版本开始)所使用的基于Office Open XML标准的文件格式。
  • 包含大量XML文件:与旧的二进制格式的.doc文件不同,.docx 文件是一个包含多个XML文件的压缩集合。
  • 主要内容:解压后,核心的文本内容通常保存在 word/document.xml 文件中,而文档的样式信息、媒体文件等则分别存储在其他文件夹或文件中。
  • 优点:这种基于XML和压缩的格式使得文件更小,并且允许更灵活地访问和编辑文档的内部结构。

那么,我们的这个奇奇怪怪的获取docx文档页数的方法,就从word/document.xml文件开始了。

3. 使用C#代码解压docx文档

解压这样的文档,并不复杂,直接用ZipFile这样的库即可,示例代码如下:

var docxFile = $@"{Environment.CurrentDirectory}{Path.DirectorySeparatorChar}test.docx";
var extractedPath = $@"{Environment.CurrentDirectory}{Path.DirectorySeparatorChar}extracted";
var xmlPath = $@"{extractedPath}{Path.DirectorySeparatorChar}word{Path.DirectorySeparatorChar}document.xml";

if (File.Exists(docxFile))
{
    System.IO.Compression.ZipFile.ExtractToDirectory(docxFile, extractedPath, true); // 最后一个参数为true,目录已存在则覆盖
    Console.WriteLine($"Extracted {docxFile} to {extractedPath}");
}
else
{
    Console.WriteLine($"File {docxFile} does not exist.");
}

解压后的目录如下:

4. 那个自称document的XML

进入解压后的word目录了,我们可以找到document.xml文件,敢自称document,也肯定是有点东西的,打开一看,确实名副其实:

可见一个word文档的整体脉络以及主要的行文,都在这里面了。当然,文档里的图片等资源也是记录在这里,例如对某个资源的引用<a:blip r:embed="rId7"/>等,当然这还牵涉到mediadocument.xml.rels中的引用关系等等,有机会再细说。那么,回到本次描述的“获取文档页数”这个操作,就比较简单了,只要我们找到里面的<w:lastRenderedPageBreak/>元素,问题就可以解决了。顾名思义,该元素是用于给word文档分页的,相当于用它来“切香肠”,一刀分两页,两刀分三页,以此类推……

5. 查找并统计分页标签

使用自带的System.Xml库,可以对xml文件进行解析,查找并获取<w:lastRenderedPageBreak/>,实现定位和统计等功能(本文就以统计为例)。

if (File.Exists(xmlPath))
{
    var xmlContent = File.ReadAllText(xmlPath);
    var xmlDoc = new System.Xml.XmlDocument();
    xmlDoc.LoadXml(xmlContent);

    var nsmgr = new System.Xml.XmlNamespaceManager(xmlDoc.NameTable);
    nsmgr.AddNamespace("w", "http://schemas.openxmlformats.org/wordprocessingml/2006/main");

    var nodes = xmlDoc.SelectNodes("//w:lastRenderedPageBreak", nsmgr);
    var cnt = nodes?.Count ?? 0;

    Console.WriteLine($"使用XML解析的方式找到 <w:lastRenderedPageBreak /> 节点数量: {cnt}");
    Console.WriteLine($"该文档共有 {cnt + 1} 页");
}
else
{
    Console.WriteLine($"File {xmlPath} does not exist.");
}

以本文中的测试文档为例,文档共7页,查找并计算出来的页数也是7页,结果与实际一致。

到此这篇关于C#获取Word格式文档页数的方法的文章就介绍到这了,更多相关C#获取Word文档页数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • C#判断字符是否为汉字的三种方法分享

    C#判断字符是否为汉字的三种方法分享

    判断一个字符是不是汉字通常有三种方法,第一种用 ASCII 码判断,第二种用汉字的 UNICODE 编码范围判 断,第三种用正则表达式判断,以下是具体方法
    2014-01-01
  • c# 9.0新特性——模块初始化器

    c# 9.0新特性——模块初始化器

    这篇文章主要介绍了c# 9.0新特性——模块初始化器的相关资料,帮助大家更好的理解和学习c#9.0,感兴趣的朋友可以了解下
    2020-11-11
  • C#实现贪吃蛇小游戏

    C#实现贪吃蛇小游戏

    这篇文章主要为大家详细介绍了C#实现贪吃蛇小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • C#中事件的动态调用实现方法

    C#中事件的动态调用实现方法

    这篇文章主要介绍了C#中事件的动态调用实现方法,对比传统思路优劣给出了一个新的解决方案,需要的朋友可以参考下
    2014-09-09
  • C# DateTime与时间戳转换实例

    C# DateTime与时间戳转换实例

    本篇文章主要介绍了C# DateTime与时间戳转换实例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-06-06
  • C#中的事务用法实例分析

    C#中的事务用法实例分析

    这篇文章主要介绍了C#中的事务用法,以一个简单实例形式分析了C#创建及使用事物的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-09-09
  • 浅谈c#中const与readonly区别

    浅谈c#中const与readonly区别

    C#引入了readonly修饰符来表示只读域,const来表示不变常量。顾名思义对只读域不能进行写操作,不变常量不能被修改,这两者到底有什么区别呢?
    2015-06-06
  • c#多进程通讯的实现示例

    c#多进程通讯的实现示例

    本文主要介绍了c#多进程通讯的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-05-05
  • 详解如何使用C#获取计算机信息

    详解如何使用C#获取计算机信息

    这篇文章主要为大家详细介绍了如何使用C#实现获取计算机信息,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考下
    2024-10-10
  • 用NPOI创建Excel、合并单元格、设置单元格样式、边框的方法

    用NPOI创建Excel、合并单元格、设置单元格样式、边框的方法

    本篇文章小编为大家介绍,用NPOI创建Excel、合并单元格、设置单元格样式、边框的方法。需要的朋友参考下
    2013-04-04

最新评论