C#使用Spire.Doc将HTML转换为文本的代码实现

 更新时间:2025年10月12日 11:44:26   作者:2501_93070778  
在 .NET 开发中,将 HTML 转换为纯文本是一项常见任务,无论是从网页中提取内容、处理 HTML 邮件,还是生成轻量级的文本报告,使用 C# 进行 HTML 到文本的转换就显得尤为重要,本文将介绍如何使用该库在 C# 中将 HTML 转换为纯文本,需要的朋友可以参考下

引言

在 .NET 开发中,将 HTML 转换为纯文本是一项常见任务,无论是从网页中提取内容、处理 HTML 邮件,还是生成轻量级的文本报告。然而,HTML 丰富的格式、标签和结构元素,往往会让需要干净、无格式文本的工作流程变得复杂。因此,使用 C# 进行 HTML 到文本的转换就显得尤为重要。

Spire.Doc for .NET 简化了这一过程——它是一款功能强大的文档处理库,原生支持加载 HTML 文件或字符串,并将其转换为干净的纯文本。本文将介绍如何使用该库在 C# 中将 HTML 转换为纯文本,并详细讲解两种核心场景:转换 HTML 字符串(内存中的内容)转换 HTML 文件(磁盘中的内容)

为什么选择使用 Spire.Doc 进行 HTML 到文本的转换?

Spire.Doc 是一款用于 .NET 的文档处理库,在执行 HTML 到文本转换方面具有以下显著优势:

  • 代码简洁:只需几行代码即可处理复杂的 HTML 内容。
  • 结构保留:在输出文本中保留逻辑格式,如换行符和列表缩进。
  • 特殊字符支持:自动将 HTML 实体转换为对应的纯文本字符。
  • 轻量高效:无繁重依赖,适用于桌面端和 Web 应用程序。

安装 Spire.Doc

Spire.Doc 可以通过 NuGet 获取,这是管理依赖项的最简便方式:

  1. 在 Visual Studio 中,右键单击你的项目,选择 “管理 NuGet 程序包”
  2. 搜索 Spire.Doc,并安装最新的稳定版本。
  3. 或者,你也可以使用 程序包管理器控制台,运行以下命令:
Install-Package Spire.Doc

安装完成后,你就可以开始编写 C# 代码,从 HTML 中提取文本内容了。

在 C# 中将 HTML 字符串转换为文本

本示例将一个 HTML 字符串加载为一个 Document 对象,然后使用 SaveToFile() 方法将其保存为纯文本文件。

using Spire.Doc;
using Spire.Doc.Documents;
 
namespace HtmlToTextSaver
{
    class Program
    {
        static void Main(string[] args)
        {
            // 定义 HTML 内容
            string htmlContent = @"
                    <html>
                        <body>
                            <h1>示例 HTML 内容</h1>
                            <p>这是一个包含 <strong>加粗</strong> 和 <em>斜体</em> 的段落.</p>
                            <p>另一行包含一个 <a href='https://example.com'>链接</a>.</p>
                            <ul>
                                <li>列表项 1</li>
                                <li>列表项 2 (包含 <em>斜体</em> 文本)</li>
                            </ul>
                            <p>特殊字符: &copy; &amp; &reg;</p>
                        </body>
                    </html>";
 
            // 创建 Document 对象
            Document doc = new Document();
            // 添加一个节以容纳内容
            Section section = doc.AddSection();
            // 添加一个段落
            Paragraph paragraph = section.AddParagraph();
            // 将 HTML 渲染到段落中
            paragraph.AppendHTML(htmlContent); 
 
            // 另存为纯文本文件
            doc.SaveToFile("HtmlStringtoText.txt", FileFormat.Txt);
        }
    }
}

在 C# 中将 HTML 文件转换为文本

本示例演示如何直接加载一个 HTML 文件并将其转换为纯文本。该方法非常适合批量处理或处理现有的 HTML 文档(例如已下载的网页或本地模板)。

using Spire.Doc;
using Spire.Doc.Documents;
 
namespace HtmlToText
{
    class Program
    {
        static void Main()
        {
            // 创建 Document 对象
            Document doc = new Document();
 
            // 加载HTML文件
            doc.LoadFromFile("sample.html", FileFormat.Html, XHTMLValidationType.None);
 
            // 将HTML另存为纯文本文件
            doc.SaveToFile("HTMLtoText.txt", FileFormat.Txt);
            doc.Dispose();
        }
    }
}

结论

使用 Spire.Doc 库在 C# 中将 HTML 转换为文本非常简单。无论你处理的是 HTML 字符串还是 HTML 文件,Spire.Doc 都能通过自动解析 HTML、保留结构格式并完成文本转换,极大地简化这一过程。通过本文提供的示例,你可以轻松地将 HTML 到文本的转换功能集成到你的 C# 应用程序中。

到此这篇关于C#使用Spire.Doc将HTML转换为文本的代码实现的文章就介绍到这了,更多相关C# Spire.Doc将HTML转文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • c#基础学习之多态

    c#基础学习之多态

    多态(Polymorphism)按字面的意思就是“多种状态”。在面向对象语言中,接口的多种不同的实现方式即为多态
    2013-09-09
  • C#修改IIS站点framework版本号的方法

    C#修改IIS站点framework版本号的方法

    这篇文章主要介绍了C#修改IIS站点framework版本号的方法,涉及C#调用使用ASP.NET IIS注册工具Aspnet_regiis.exe进行IIS站点framework版本号修改的方法,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-10-10
  • C#字符集编码的使用及说明

    C#字符集编码的使用及说明

    这篇文章主要介绍了C#字符集编码的使用及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • C#采用FileSystemWatcher实现监视磁盘文件变更的方法

    C#采用FileSystemWatcher实现监视磁盘文件变更的方法

    这篇文章主要介绍了C#采用FileSystemWatcher实现监视磁盘文件变更的方法,详细分析了FileSystemWatcher的用法,并以此为基础实现监视磁盘文件变更,是非常实用的技巧,具有一定的借鉴价值,需要的朋友可以参考下
    2014-11-11
  • C# 键值对数据排序代码

    C# 键值对数据排序代码

    这篇文章介绍了C# 键值对数据排序代码,有需要的朋友可以参考一下
    2013-11-11
  • C#实现仿QQ抽屉式窗体的设计方法

    C#实现仿QQ抽屉式窗体的设计方法

    QQ软件对于绝大多数的人来说再熟悉不过了,它以使用方便、界面美观及功能完善而著称,本文给大家介绍了C#实现仿QQ抽屉式窗体的设计方法,主要通过使用API函数WindowFromPoint和GetParent实现仿QQ的抽屉式窗体,需要的朋友可以参考下
    2024-04-04
  • C#实现Socket数据接收的三种经典方式

    C#实现Socket数据接收的三种经典方式

    本文将深入探讨 C# 中实现 Socket 数据接收的三种经典方式,结合真实案例分析常见问题,并提供优化后的完整代码示例,希望对大家有一定的帮助
    2025-08-08
  • UGUI ScrollRect实现带按钮翻页支持拖拽

    UGUI ScrollRect实现带按钮翻页支持拖拽

    这篇文章主要为大家详细介绍了UGUI ScrollRect实现带按钮翻页支持拖拽,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-05-05
  • winform天气预报小工具(附源码下载)

    winform天气预报小工具(附源码下载)

    主要原理就是利用网上免费的webservice获取天气数据,需要的朋友可以参考下
    2012-03-03
  • WPF自定义路由事件的实例教程

    WPF自定义路由事件的实例教程

    &#65279;WPF中有两种事件模型,一种是在WinForm时代就存在的CLR事件,另一种是WPF时代的路由事件,这篇文章主要给大家介绍了关于WPF自定义路由事件的相关资料,需要的朋友可以参考下
    2021-09-09

最新评论