C#操作Word模拟解析HTML标记输出带格式的文本

 更新时间:2026年01月31日 10:06:15   作者:初九之潜龙勿用  
这篇文章介绍了一种解决Word文档格式设置问题的方案,通过HTML标记化文本内容,利用正则表达式提取关键字,并对Word字符集对象逐字操作来重置格式,感兴趣的小伙伴可以了解下

需求与困惑

应需求通过算法输出纯文本内容到 MS Word 对应的替换字段中,原有的设计仅能保持模板设定的格式,如下是一个WORD表格,下方单元格中输出题目内容,固定格式为宋体:

但客户的需求是希望题目为黑体加粗,考察关键点为正常宋体,颜色置灰,如下图:

初期的设想是通过 Word.Find 对象配合扩展的格式参数,进行查找结果关键字进行替换及格式重置操作,发现无法定位精准或有效的 Range ,尤其是 Word.Shape.TextFrame.TextRange ,参考、搜索了一些资料,问题仍无法解决。

解决方案

目前主要针对如下两个 Range 对象进行操作:

序号对象说明
1Word.Appication.Selection.Range页面选择区域范围对象(如查找到的段落高亮文字显示结果)
2Word.Shape.TextFrame.TextRange形状对象,对象内包含文字,且查找到的文字结果范围Range

基本的实现的思路如下:

一、将原始输出文本按照指定的定义进行 HTML 标记化,如将 “这是一段文本” 文本更改为  “<span style='font-family:黑体;font-weight:bold'>这是一段文本</span>” (html 部分使用标准的 span + style ),这样可以同时兼容标准的网页版输出。

二、对 Range 的文本(Text)使用正则表达式提取 HTML 标记间的所有查找关键字。

三、对 Range 的字符集对象(Word.Characters)进行逐字操作,提取 HTML 标记的 style 属性部分,分隔各种 style 进行解析,重刷每一个字符的格式。

四、处理完格式设置,调用 Range.Find 对象替换掉 “多余” 的 HTML 标记文本,完成最终输出效果。

范例运行环境

操作系统: Windows Server 2019 DataCenter

操作系统上安装 Office Word 2016

数据库:Microsoft SQL Server 2016

.net版本: .netFramework4.7.1 或以上

开发工具:VS2019  C#

配置Office DCOM

配置方法可参照我的文章《C# 读取Word表格到DataSet》进行处理和配置。

设计实现

组件库引入

方法实现

processWordChars 方法基本说明如下表:

序号参数名称参数类型说明
1charsWord.CharactersWord.Range的字符集对象

方法示例代码如下:

void processWordChars(Word.Characters chars)
{

  string content = chars.Parent.Text;
  if (content == null || content == "") { return; }
  Word.Find fnd = chars.Parent.Find;

  ArrayList paras2 = new ArrayList();
  paras2.Add(new string[] { "<span style=", "</span>" });
  foreach (string[] p in paras2)
  {
      string pattern = string.Format(@"{0}(.*?){1}", p[0], p[1]);
      System.Text.RegularExpressions.MatchCollection matches = System.Text.RegularExpressions.Regex.Matches(content, pattern);
      foreach (System.Text.RegularExpressions.Match match in matches)
      {
         string key = match.Groups[1].Value;  //提取的内容
         string vkey = key.Substring(key.IndexOf('>') + 1); //最终有效内容
                    
         string vstyle = key.Substring(1, key.Length - vkey.Length - 3); //截取 style 值
         string findkey = p[0] + key + "</span>";  //最终替换部分
         int fk = content.IndexOf(findkey);
         if (fk != -1)
         {
             for (int i = 1; i <= findkey.Length; i++)
             {
                 foreach (string kv in vstyle.Split(';'))
                 {
                     string[] style = kv.Split(':');
                     if (style[0] == "color")
                     {
                         chars[fk + i].Font.Color =(Word.WdColor)ColorTranslator.ToOle(ColorTranslator.FromHtml(style[1]));
                                        // 获取ARGB值
                     }
                     else if(style[0]== "font-weight")
                     {
                         if (style[1] == "bold") {
                             chars[fk + i].Font.Bold=1;
                         }
                     }
                     else if (style[0] == "font-family")
                     {
                         chars[fk + i].Font.Name=style[1];
                     }
                 }
              }
          fnd.ClearFormatting();
          Object findText = findkey;
          Object matchCase = false; Object matchWholeWord = Type.Missing; Object matchWildcards = false; Object matchSoundsLike = false; Object matchAllWordForms = false;
          Object forward = true; Object wrap = Word.WdFindWrap.wdFindContinue; Object format = false;
          Object replaceWith = vkey;
          Object replace = Word.WdReplace.wdReplaceAll; Object matchKashida = Type.Missing; Object matchDiacritics = Type.Missing; Object matchAlefHamza = Type.Missing; Object matchControl = Type.Missing;
          fnd.Execute(ref findText, ref matchCase, ref matchWholeWord, ref matchWildcards, ref matchSoundsLike, ref matchAllWordForms,ref forward, ref wrap, ref format, ref replaceWith, ref replace, ref matchKashida, ref matchDiacritics, ref matchAlefHamza, ref matchControl);
          content = chars.Parent.Text;
         }
      }
   }
}

小结

1、示例代码只是简单的处理了字体颜色、加粗和字体名称三项,我们可以根据实际需要扩展处理。

2、字体颜色请参照十六进制表示输入(如 #00ff00)。

3、示例代码中 Word 表示 using Word=Microsoft.Office.Interop.Word; 的引用。

到此这篇关于C#操作Word模拟解析HTML标记输出带格式的文本的文章就介绍到这了,更多相关C# Word输出带格式文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Unity相机移动之屏幕边缘检测

    Unity相机移动之屏幕边缘检测

    这篇文章主要为大家详细介绍了Unity相机移动之屏幕边缘检测,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-02-02
  • C#简单实现防止多个程序运行的方法

    C#简单实现防止多个程序运行的方法

    这篇文章主要介绍了C#简单实现防止多个程序运行的方法,涉及C#进程操作的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2016-02-02
  • C#利用OLEDB实现将DataTable写入Excel文件中

    C#利用OLEDB实现将DataTable写入Excel文件中

    这篇文章主要为大家详细介绍了C#如何利用OLEDB实现将DataTable写入Excel文件中,文中的示例代码简洁易懂,具有一定的借鉴价值,需要的可以参考一下
    2023-02-02
  • C# 通过 inline-asm 解决嵌入x86汇编

    C# 通过 inline-asm 解决嵌入x86汇编

    此篇文章通过C#语言解决嵌入x86汇编,主要通过INline-asm方法来实现,下面我通过图片和代码的形式给大家分享下,需要的朋友可以参考下
    2015-07-07
  • C#生成code128条形码的方法

    C#生成code128条形码的方法

    这篇文章主要介绍了C#生成code128条形码的方法,是C#程序设计中一个很实用的技巧,需要的朋友可以参考下
    2014-08-08
  • C#实现强制关闭当前程序进程

    C#实现强制关闭当前程序进程

    这篇文章主要介绍了C#实现强制关闭当前程序进程,本文直接给出实现代码,可以实现完全Kill掉不留痕迹,需要的朋友可以参考下
    2015-06-06
  • C#中TextBox实现输入提示功能的方法

    C#中TextBox实现输入提示功能的方法

    这篇文章主要介绍了C#中TextBox实现输入提示功能的方法,涉及C#中TextBox的相关操作技巧,需要的朋友可以参考下
    2015-06-06
  • C#更新SQLServer中TimeStamp字段(时间戳)的方法

    C#更新SQLServer中TimeStamp字段(时间戳)的方法

    这篇文章主要介绍了C#更新SQLServer中TimeStamp字段(时间戳)的方法,涉及C#操作数据库字段的相关技巧,需要的朋友可以参考下
    2015-05-05
  • C#基本概念列举详解

    C#基本概念列举详解

    这篇文章主要介绍了C#基本概念列举,需要的朋友可以参考下
    2014-02-02
  • C# 空值处理运算符??、?. 及其它常用符号

    C# 空值处理运算符??、?. 及其它常用符号

    本文主要介绍了C# 空值处理运算符??、?. 及其它常用符号,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-11-11

最新评论