python处理html转义字符的方法详解

 更新时间:2016年07月01日 11:05:54   作者:holybin  
这篇文章主要介绍了python处理html转义字符的方法,结合实例形式较为详细的分析了Python针对常见HTML转义字符处理技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了python处理html转义字符的方法。分享给大家供大家参考,具体如下:

最近在用Python处理网页数据时,经常遇到一些html转义字符(也叫html字符实体),例如<> 等。字符实体一般是为了表示网页中的预留字符,比如>用>表示,防止被浏览器认为是标签,具体参考w3school的HTML 字符实体。虽然很有用,但是它们会极度影响对于网页数据的解析。为了处理这些转义字符,有如下解决方案:

1、使用HTMLParser处理

import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"

转换回去(只是空格转不回去了):

import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg&gt;123&lt;"

2、直接挨个替换

html_cont = "&nbsp;asdfg&gt;123&lt;"
new_cont = new_cont.replace('&nbsp;', ' ')
print new_cont #new_cont = " asdfg&gt;123&lt;"
new_cont = new_cont.replace('&gt;', '>')
print new_cont #new_cont = " asdfg>123&lt;"
new_cont = new_cont.replace('&lt;', '<')
print new_cont #new_cont = " asdfg>123<"

不知道还有没有更好的办法。

另外stackoverflow上给出了在xml中处理转义字符的解答:python - What's the best way to handle &nbsp;-like entities in XML documents with lxml? - Stack Overflow

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python编码操作技巧总结》、《Python图片操作技巧总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • python之流程控制语句match-case详解

    python之流程控制语句match-case详解

    这篇文章主要介绍了python之流程控制语句match-case使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2025-03-03
  • Python进阶之全面解读高级特性之切片

    Python进阶之全面解读高级特性之切片

    切片的作用就是截取序列对象,然而,对于非序列对象,我们是否有办法做到切片操作呢?在使用切片的过程中,有什么要点值得重视,又有什么底层原理值得关注呢?本文将主要跟大家一起来探讨这些内容
    2019-02-02
  • 详解Python的条件语句

    详解Python的条件语句

    这篇文章主要为大家介绍了Python的条件语句,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-01-01
  • 使用Python的OpenCV模块识别滑动验证码的缺口(推荐)

    使用Python的OpenCV模块识别滑动验证码的缺口(推荐)

    这篇文章主要介绍了使用Python的OpenCV模块识别滑动验证码的缺口,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-05-05
  • Python内建模块collections实现特殊容器数据类型

    Python内建模块collections实现特殊容器数据类型

    collections模块是Python的内建模块之一,它实现了特殊的容器数据类型,提供了Python内建的数据类型dict、list、set、和tuple的高效替代选择
    2023-06-06
  • 一文带你掌握Python自然语言处理库SpaCy

    一文带你掌握Python自然语言处理库SpaCy

    SpaCy是一个非常强大的Python自然语言处理库,它包含了众多强大功能,如词性标注、命名实体识别、依赖关系解析等等,这篇文章的目标是帮助你了解SpaCy的基本功能和如何使用,需要的朋友可以参考下
    2023-07-07
  • python中图像通道分离与合并实例

    python中图像通道分离与合并实例

    今天小编就为大家分享一篇python中图像通道分离与合并实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • django重新生成数据库中的某张表方法

    django重新生成数据库中的某张表方法

    今天小编就为大家分享一篇django重新生成数据库中的某张表方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • python重写方法和重写特殊构造方法

    python重写方法和重写特殊构造方法

    这篇文章主要介绍了python重写方法和重写特殊构造方法,对于父类的方法,只要他不符合子类模拟的实物的行为,都可以进行重写,更多相关内容需要的朋友可以参考一下
    2022-07-07
  • django settings.py配置文件的详细介绍

    django settings.py配置文件的详细介绍

    本文主要介绍了django settings.py配置文件的详细介绍,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-04-04

最新评论