在Python中使用HTMLParser解析HTML的教程

更新时间：2015年04月29日 09:38:01 作者：廖雪峰

这篇文章主要介绍了在Python中使用HTMLParser解析HTML的教程,尤其是在用Python制作爬虫程序的时候经常可以用到,需要的朋友可以参考下

如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了，第二步应该如何解析HTML呢？

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码：

from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint

class MyHTMLParser(HTMLParser):

  def handle_starttag(self, tag, attrs):
    print('<%s>' % tag)

  def handle_endtag(self, tag):
    print('</%s>' % tag)

  def handle_startendtag(self, tag, attrs):
    print('<%s/>' % tag)

  def handle_data(self, data):
    print('data')

  def handle_comment(self, data):
    print('<!-- -->')

  def handle_entityref(self, name):
    print('&%s;' % name)

  def handle_charref(self, name):
    print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')

feed()方法可以多次调用，也就是不一定一次把整个HTML字符串都塞进去，可以一部分一部分塞进去。

特殊字符有两种，一种是英文表示的 ，一种是数字表示的Ӓ，这两种字符都可以通过Parser解析出来。
小结

找一个网页，例如https://www.python.org/events/python-events/，用浏览器查看源码并复制，然后尝试解析一下HTML，输出Python官网发布的会议时间、名称和地点。

您可能感兴趣的文章:

Python

python画图时linestyle,color和loc参数的设置方式
这篇文章主要介绍了python画图时linestyle，color和loc参数的设置方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-11-11
Python实现树莓派摄像头持续录像并传送到主机的步骤
这篇文章主要介绍了Python实现树莓派摄像头持续录像并传送到主机的步骤，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-11-11
python对raw格式照片进行降噪处理的方法详解
要对RAW格式的照片进行降噪，我们可以使用rawpy库来读取RAW图像，并使用imageio库将处理后的图像保存为其他格式，如PNG或JPEG，本文将详细给大家介绍python如何对raw格式照片进行降噪处理,文中有详细的代码流程，需要的朋友可以参考下
2023-05-05
python决策树之C4.5算法详解
这篇文章主要为大家详细介绍了python决策树之C4.5算法的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-12-12
Python实现字符串反转的常用方法分析【4种方法】
这篇文章主要介绍了Python实现字符串反转的常用方法,结合具体实例形式分析了4种常用的Python字符串反转操作技巧,需要的朋友可以参考下
2017-09-09
plt.figure()参数使用详解及运行演示
这篇文章主要介绍了plt.figure()参数使用详解及运行演示，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01
Python Django给admin添加Action的方法实例详解
这篇文章主要介绍了Django给admin添加Action的方法，本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2019-04-04
Python的iOS自动化打包实例代码
这篇文章主要给大家介绍了关于Python的iOS自动化打包的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2018-11-11
使用pytorch完成kaggle猫狗图像识别方式
今天小编就为大家分享一篇使用pytorch完成kaggle猫狗图像识别方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
Python详解文字转语音的实现
在自然语言处理上，文字、音频互转是一个很关键的技术点。对于语音转文字，个人实现较为困难，我们可以使用语音转文字的软件或借助各API（如科大讯飞等）进行移植开发。不过文字转语音就相对而言容易实现很多了
2022-02-02

在Python中使用HTMLParser解析HTML的教程

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具