Python实现HTML文件或字符串转换为纯文本TXT

 更新时间:2025年09月28日 08:40:09   作者:Eiceblue  
在数据处理、内容提取、网页归档等任务中,经常需要将 HTML 转换为纯文本 TXT,本文将介绍如何用 Python 和 Free Spire.Doc 库完成 HTML 到 TXT 的转换,希望对大家有所帮助

1. 引言

在数据处理、内容提取、网页归档等任务中,经常需要将 HTML 转换为纯文本 TXT。常见需求包括去除 HTML 标签,保留文本内容,保留段落、列表等基本结构。

本文将介绍如何用 Python 和 Free Spire.Doc 库完成 HTML 到 TXT 的转换。

2. 转换原理

HTML 转 TXT 的本质是解析 HTML 文档对象模型(DOM),提取其中的文本节点,再按需要的格式输出。
常用方法有两类:

  • 纯解析器(如 BeautifulSouplxml):快速、轻量,但需要自己处理换行和缩进。
  • 文档模型类库(如 Free Spire.Doc):加载 HTML 到文档对象,再导出为 TXT,结构保留更好。

3. 环境准备

安装 Free Spire.Doc for Python:

pip install Spire.Doc.free

注意点击查看免费版的限制

4. 基本实现

4.1 HTML 文件 → TXT 文件

下面是一个将 HTML 文件转换为 TXT 文本的简单示例:

from spire.doc import *
from spire.doc.common import *

# 加载HTML文件
document = Document()
document.LoadFromFile("E:\input.html", FileFormat.Html, XHTMLValidationType.none)

# 另存为TXT文件
document.SaveToFile("Html文件转TXT.txt", FileFormat.Txt)
document.Close()

核心代码:

  • LoadFromFile():加载 HTML 文件。FileFormat.Html 表示文件格式为 HTML。
  • SaveToFile():将文档保存为 TXT 格式。FileFormat.Txt 表示保存为纯文本。

输出结果:

4.2 HTML 字符串 → TXT 文件

若 HTML 内容已在内存中(如接口返回、爬虫抓取结果),可使用该方法:

from spire.doc import *
from spire.doc.common import *

# 指定HTML字符串
sample_html = """
<html>
<head><title>示例页面</title></head>
<body>
    <h1>欢迎来到我的网站</h1>
    <p>这是一个段落文本。</p>
    <ul>
        <li>项目1</li>
        <li>项目2</li>
        <li>项目3</li>
    </ul>
</body>
</html>
"""

# 创建文档
document = Document()
# 在段落中插入字符串
section = document.AddSection()
section.AddParagraph().AppendHTML(sample_html)

# 另存为TXT
document.SaveToFile("Html字符串转TXT.txt", FileFormat.Txt)
document.Close()

输出结果:

5. 注意事项

  • 格式保留:转换后的 TXT 会保留 HTML 的段落结构(换行、列表等),但不保留颜色、字体等样式。
  • 性能:对于超大型 HTML 文件,建议分段处理以避免内存占用过高。
  • 复杂 HTML:对于包含大量 JavaScript、CSS 或复杂布局的 HTML,建议先用对文件进行预处理再转换。

使用 Free Spire.Doc for Python 转换 HTML 到 TXT 非常方便,只需几行代码即可完成,并且能够较好地保留原有的文本结构。相比正则表达式或简单的标签剥离方法,这种方式更稳定可靠。

到此这篇关于Python实现HTML文件或字符串转换为纯文本TXT的文章就介绍到这了,更多相关Python HTML转TXT内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python OpenCV图像金字塔

    python OpenCV图像金字塔

    这篇文章主要介绍了python OpenCV图像金字塔,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-06-06
  • Python机器学习NLP自然语言处理基本操作电影影评分析

    Python机器学习NLP自然语言处理基本操作电影影评分析

    本文是Python机器学习NLP自然语言处理系列文章,带大家开启一段学习自然语言处理 (NLP) 的旅程。本篇文章主要学习NLP自然语言处理基本操电影影评分析
    2021-09-09
  • 分析如何在Python中解析和修改XML

    分析如何在Python中解析和修改XML

    我们经常需要解析用不同语言编写的数据。Python提供了许多库来解析或拆分用其他语言编写的数据。在此Python XML解析器教程中,您将学习如何使用Python解析XML
    2021-06-06
  • python实现Floyd算法

    python实现Floyd算法

    这篇文章主要为大家详细介绍了python实现Floyd算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • 用python实现读取xlsx表格操作

    用python实现读取xlsx表格操作

    大家好,本篇文章主要讲的是用python实现读取xlsx表格操作,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-01-01
  • Python字符串的常见操作实例小结

    Python字符串的常见操作实例小结

    这篇文章主要介绍了Python字符串的常见操作,结合实例形式总结分析了Python字符串的查询、转换、分割、计算等相关操作技巧,需要的朋友可以参考下
    2019-04-04
  • Python实现Opencv cv2.Canny()边缘检测

    Python实现Opencv cv2.Canny()边缘检测

    这篇博客将介绍Canny边缘检测的概念,并利用cv2.Canny()实现边缘检测,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-07-07
  • LyScript实现Hook隐藏调试器的方法详解

    LyScript实现Hook隐藏调试器的方法详解

    LyScript 插件集成的内置API函数可灵活的实现绕过各类反调试保护机制。本文将运用LyScript实现绕过大多数通用调试机制,实现隐藏调试器的目的,需要的可以参考一下
    2022-09-09
  • 如何使用Python在excel中创建柱状图

    如何使用Python在excel中创建柱状图

    这篇文章主要给大家介绍了关于如何使用Python在excel中创建柱状图的相关资料,包括导入模块、新建工作簿、创建图表、设置数据范围、添加标题和数据系列、以及保存图表和工作簿,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2025-04-04
  • Python实现将长图制作成一个视频

    Python实现将长图制作成一个视频

    这篇文章主要为大家详细介绍了Python如何实现将一个长图制作成一个视频,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-05-05

最新评论