在Python中使用HTMLParser解析HTML的教程

 更新时间:2015年04月29日 09:38:01   作者:廖雪峰  
这篇文章主要介绍了在Python中使用HTMLParser解析HTML的教程,尤其是在用Python制作爬虫程序的时候经常可以用到,需要的朋友可以参考下

如果我们要编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓下来,第二步就是解析该HTML页面,看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了,第二步应该如何解析HTML呢?

HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML,只需简单几行代码:

from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint

class MyHTMLParser(HTMLParser):

  def handle_starttag(self, tag, attrs):
    print('<%s>' % tag)

  def handle_endtag(self, tag):
    print('</%s>' % tag)

  def handle_startendtag(self, tag, attrs):
    print('<%s/>' % tag)

  def handle_data(self, data):
    print('data')

  def handle_comment(self, data):
    print('<!-- -->')

  def handle_entityref(self, name):
    print('&%s;' % name)

  def handle_charref(self, name):
    print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')

feed()方法可以多次调用,也就是不一定一次把整个HTML字符串都塞进去,可以一部分一部分塞进去。

特殊字符有两种,一种是英文表示的&nbsp;,一种是数字表示的&#1234;,这两种字符都可以通过Parser解析出来。
小结

找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。

相关文章

  • python画图时linestyle,color和loc参数的设置方式

    python画图时linestyle,color和loc参数的设置方式

    这篇文章主要介绍了python画图时linestyle,color和loc参数的设置方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11
  • Python实现树莓派摄像头持续录像并传送到主机的步骤

    Python实现树莓派摄像头持续录像并传送到主机的步骤

    这篇文章主要介绍了Python实现树莓派摄像头持续录像并传送到主机的步骤,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-11-11
  • python对raw格式照片进行降噪处理的方法详解

    python对raw格式照片进行降噪处理的方法详解

    要对RAW格式的照片进行降噪,我们可以使用rawpy库来读取RAW图像,并使用imageio库将处理后的图像保存为其他格式,如PNG或JPEG,本文将详细给大家介绍python如何对raw格式照片进行降噪处理,文中有详细的代码流程,需要的朋友可以参考下
    2023-05-05
  • python决策树之C4.5算法详解

    python决策树之C4.5算法详解

    这篇文章主要为大家详细介绍了python决策树之C4.5算法的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12
  • Python实现字符串反转的常用方法分析【4种方法】

    Python实现字符串反转的常用方法分析【4种方法】

    这篇文章主要介绍了Python实现字符串反转的常用方法,结合具体实例形式分析了4种常用的Python字符串反转操作技巧,需要的朋友可以参考下
    2017-09-09
  • plt.figure()参数使用详解及运行演示

    plt.figure()参数使用详解及运行演示

    这篇文章主要介绍了plt.figure()参数使用详解及运行演示,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Python Django给admin添加Action的方法实例详解

    Python Django给admin添加Action的方法实例详解

    这篇文章主要介绍了Django给admin添加Action的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-04-04
  • Python的iOS自动化打包实例代码

    Python的iOS自动化打包实例代码

    这篇文章主要给大家介绍了关于Python的iOS自动化打包的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-11-11
  • 使用pytorch完成kaggle猫狗图像识别方式

    使用pytorch完成kaggle猫狗图像识别方式

    今天小编就为大家分享一篇使用pytorch完成kaggle猫狗图像识别方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python详解文字转语音的实现

    Python详解文字转语音的实现

    在自然语言处理上,文字、音频互转是一个很关键的技术点。对于语音转文字,个人实现较为困难,我们可以使用语音转文字的软件或借助各API(如科大讯飞等)进行移植开发。不过文字转语音就相对而言容易实现很多了
    2022-02-02

最新评论