python中的标准库html

 更新时间:2022年04月29日 10:38:36   作者:爱听音乐的boy  
html库是用于解析HTML的一个工具,是python自带的标准库之一,今天通过本文给大家介绍下python中的标准库html,感兴趣的朋友一起看看吧

python之标准库html

html库是用于解析HTML的一个工具,是python自带的标准库之一。
html库位置:

在这里插入图片描述

__init__.py文件提供两个函数:

__all__ = ['escape', 'unescape']

介绍 escape 和 unescape:

escape(s, quote=True) #用来将特殊字符进行转义成实体字符
"""
参数介绍:
  s 指定要转义的特殊字符
  quote 默认为True,表示要将 " 或者 ' 也要转义成实体字符,False反之不用转义成实体字符
"""
unescape(s) #用来将实体字符进行还原到特殊字符

escape 和 unescape 的使用:

import html
s = '<div id="box">div</div>'
res = html.escape(s)
print(res)
print(html.escape(s,quote=False))
print(html.unescape(res)) #理解还原即可

输出结果:

在这里插入图片描述

escape源码的实现:

在这里插入图片描述

html库中的 entities 模块

该模块定义: HTML字符实体引用。
该模块提供四个字典对象:

__all__ = ['html5', 'name2codepoint', 'codepoint2name', 'entitydefs']

导入:

from html import entities
html = entities.html5
name2codep = entities.name2codepoint
codep = entities.codepoint2name
ent = entities.entitydefs
print(html)
print(name2codep)
print(codep)
print(ent)

输出结果:

在这里插入图片描述

html库中的 parser 模块

该模块是HTML和XHTML的解析器。
该模块提供一个类:

__all__ = ['HTMLParser']

导入:

from html import parser
htmlParser=parser.HTMLParser()

介绍该类的常用属性和常用方法:
常用属性:

lasttag #保存上一个解析的标签名,返回字符串。

已实现的常用方法:

feed(data) #将数据馈送到解析器。无返回值
unescape(s) #往上看,前面有介绍的
get_starttag_text() #返回开始标记的完整来源
close() #关闭

未实现的常用方法:
注意:这些方法在源码中都没有具体实现,需要我们定义一个子类继承自HTMLParser类,在子类中重写这些方法,实现自己逻辑

handle_starttag(tag, attrs) #处理开始标签,如 <div>;这里的attrs获取到的是属性列表,属性以元组的方式展示
handle_endtag(tag) #处理结束标签, 如 </div>
handle_data(data) #处理数据,标签之间的文本
handle_comment(data) #处理注释,<!-- - -> 之间的文本
handle_startendtag(tag, attrs) #处理自己结束的标签,如 <img />

以上方法在源码中是这样的:

在这里插入图片描述

 

在这里插入图片描述

在这里插入图片描述

到此这篇关于python之标准库html的文章就介绍到这了,更多相关python标准库html内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python可视化分析绘制带趋势线的散点图和边缘直方图

    python可视化分析绘制带趋势线的散点图和边缘直方图

    这篇文章主要介绍了python可视化分析绘制带趋势线的散点图和边缘直方图,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-06-06
  • python3模拟百度登录并实现百度贴吧签到示例分享(百度贴吧自动签到)

    python3模拟百度登录并实现百度贴吧签到示例分享(百度贴吧自动签到)

    这篇文章主要介绍了python3模拟百度登录并实现百度贴吧签到示例,需要的朋友可以参考下
    2014-02-02
  • pytorch中torch.max和Tensor.view函数用法详解

    pytorch中torch.max和Tensor.view函数用法详解

    今天小编就为大家分享一篇pytorch中torch.max和Tensor.view函数用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python 随机森林算法及其优化详解

    python 随机森林算法及其优化详解

    这篇文章主要介绍了ptyhon 随机森林算法及其优化详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • python实现三维拟合的方法

    python实现三维拟合的方法

    今天小编就为大家分享一篇python实现三维拟合的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • PaddleNLP ppdiffusers 自动生成兔了个兔海报

    PaddleNLP ppdiffusers 自动生成兔了个兔海报

    这篇文章主要为大家介绍了PaddleNLP ppdiffusers 自动生成兔了个兔海报示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-01-01
  • Python安装xarray库读取.nc文件的详细步骤

    Python安装xarray库读取.nc文件的详细步骤

    大家应该都知道库xarray可以帮我们读取出nc文件的内容,所以下面这篇文章主要给大家介绍了关于Python安装xarray读取.nc文件的详细步骤,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-07-07
  • Python开发必备知识内存管理与垃圾回收

    Python开发必备知识内存管理与垃圾回收

    Python是一种高级编程语言,因其简洁而强大而备受欢迎,然而如其他编程语言一样,Python也面临着内存管理的挑战,在Python中,垃圾回收是一项关键任务,用于自动释放不再使用的内存,以避免内存泄漏,本文将介绍Python中的垃圾回收机制,以及如何通过优化代码来提高性能
    2023-11-11
  • Python实现自动驾驶训练模型

    Python实现自动驾驶训练模型

    这篇文章主要为大家介绍了Python实现自动驾驶训练模型,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • 浅析python中的del用法

    浅析python中的del用法

    python中的del用法比较特殊,新手学习往往产生误解,弄清del的用法,可以帮助深入理解python的内存方面的问题。这篇文章主要介绍了python中的del用法,需要的朋友可以参考下
    2020-09-09

最新评论