在Python中使用HTMLParser解析HTML的教程

 更新时间:2015年04月29日 09:38:01   作者:廖雪峰  
这篇文章主要介绍了在Python中使用HTMLParser解析HTML的教程,尤其是在用Python制作爬虫程序的时候经常可以用到,需要的朋友可以参考下

如果我们要编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓下来,第二步就是解析该HTML页面,看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了,第二步应该如何解析HTML呢?

HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML,只需简单几行代码:

from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint

class MyHTMLParser(HTMLParser):

  def handle_starttag(self, tag, attrs):
    print('<%s>' % tag)

  def handle_endtag(self, tag):
    print('</%s>' % tag)

  def handle_startendtag(self, tag, attrs):
    print('<%s/>' % tag)

  def handle_data(self, data):
    print('data')

  def handle_comment(self, data):
    print('<!-- -->')

  def handle_entityref(self, name):
    print('&%s;' % name)

  def handle_charref(self, name):
    print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')

feed()方法可以多次调用,也就是不一定一次把整个HTML字符串都塞进去,可以一部分一部分塞进去。

特殊字符有两种,一种是英文表示的&nbsp;,一种是数字表示的&#1234;,这两种字符都可以通过Parser解析出来。
小结

找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。

相关文章

  • django中SMTP发送邮件配置详解

    django中SMTP发送邮件配置详解

    这篇文章主要介绍了django中SMTP发送邮件配置,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • python经典趣味24点游戏程序设计

    python经典趣味24点游戏程序设计

    这篇文章主要介绍了python经典趣味24点游戏程序设计,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • Python面向对象之反射/自省机制实例分析

    Python面向对象之反射/自省机制实例分析

    这篇文章主要介绍了Python面向对象之反射/自省机制,结合实例形式分析了Python面向对象程序设计中的反射/自省机制概念、原理及相关属性操作技巧,需要的朋友可以参考下
    2018-08-08
  • 浅谈Python魔法方法

    浅谈Python魔法方法

    今天给大家带来的是关于Python的相关知识,文章围绕着Python魔法方法展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • tensorflow -gpu安装方法(不用自己装cuda,cdnn)

    tensorflow -gpu安装方法(不用自己装cuda,cdnn)

    这篇文章主要介绍了tensorflow -gpu安装,史上最新最简单的途径(不用自己装cuda,cdnn),非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • Python实现冒泡排序的简单应用示例

    Python实现冒泡排序的简单应用示例

    这篇文章主要介绍了Python实现冒泡排序的简单应用,结合实例形式分析了Python基于冒泡排序实现的输入字符串数字排序与运算操作,需要的朋友可以参考下
    2017-12-12
  • Django Admin 管理工具的实现

    Django Admin 管理工具的实现

    这篇文章主要介绍了Django Admin 管理工具的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-05-05
  • Python快速排序算法实例分析

    Python快速排序算法实例分析

    这篇文章主要介绍了Python快速排序算法,简单说明了快速排序算法的原理、实现步骤,并结合具体实例分析了Python实现快速排序的相关操作技巧,需要的朋友可以参考下
    2017-11-11
  • Pycharm debug调试时带参数过程解析

    Pycharm debug调试时带参数过程解析

    这篇文章主要介绍了Pycharm debug调试时带参数过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • Django框架视图函数设计示例

    Django框架视图函数设计示例

    这篇文章主要介绍了Django框架视图函数设计,结合实例形式分析了Django框架视图函数处理流程、原理与相关操作注意事项,需要的朋友可以参考下
    2019-07-07

最新评论