Python 网页解析HTMLParse的实例详解

转载  更新时间:2017年08月10日 09:24:09   作者:qindongliang1922   我要评论

这篇文章主要介绍了Python 网页解析HTMLParse的实例详解的相关资料,python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,需要的朋友可以参考下

Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:

现在一个模拟的html文件:

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html> 

需求是,提取出标题的属性值,以及内容:

代码如下:

import html.parser as h 
 
 
 
class MyHTMLParser(h.HTMLParser): 
  a_t=False 
  def handle_starttag(self, tag, attrs): 
    #print("开始一个标签:",tag) 
    print() 
    if str(tag).startswith("title"): 
      print(tag) 
      self.a_t=True 
      for attr in attrs: 
        print("  属性值:",attr) 
 
  def handle_endtag(self, tag): 
    if tag == "title": 
      self.a_t=False 
      #print("结束一个标签:",tag) 
 
  def handle_data(self, data): 
    if self.a_t is True: 
      print("得到的数据: ",data) 
 
 
 
p=MyHTMLParser() 
 
p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>") 
 
p.close() 

运行结果如下:

title 
  属性值: ('id', 'main') 
  属性值: ('mouse', '你好') 
得到的数据: 我是标题 

主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。

解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。

以上就是Python 网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

  • Python检测网络延迟的代码

    Python检测网络延迟的代码

    这篇文章主要介绍了Python检测网络延迟的代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • python中的格式化输出用法总结

    python中的格式化输出用法总结

    这篇文章主要介绍了python中的格式化输出用法,分析了Python格式化输出的种类并结合实例形式总结了针对浮点数的格式化输出方法,需要的朋友可以参考下
    2016-07-07
  • Python获取网页上图片下载地址的方法

    Python获取网页上图片下载地址的方法

    这篇文章主要介绍了Python获取网页上图片下载地址的方法,涉及Python操作正则表达式匹配字符串的技巧,需要的朋友可以参考下
    2015-03-03
  • Python实现Windows上气泡提醒效果的方法

    Python实现Windows上气泡提醒效果的方法

    这篇文章主要介绍了Python实现Windows上气泡提醒效果的方法,涉及Python针对windows窗口操作的相关技巧,需要的朋友可以参考下
    2015-06-06
  • Python中DJANGO简单测试实例

    Python中DJANGO简单测试实例

    这篇文章主要介绍了Python中DJANGO简单测试,实例分析了DJANGO的用法,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-05-05
  • python线程池的实现实例

    python线程池的实现实例

    这篇文章主要介绍了python线程池的实现方法,代码简单实用,供大家参考使用
    2013-11-11
  • python中返回矩阵的行列方法

    python中返回矩阵的行列方法

    下面小编就为大家分享一篇python中返回矩阵的行列方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • 利用Python读取文件的四种不同方法比对

    利用Python读取文件的四种不同方法比对

    Python的文本处理是经常碰到的一个问题,下面这篇文章主要给大家介绍了关于Python读取文件的几种不同方法比对的相关资料,文中给出了详细的示例代码供大家理解和学习,需要的朋友们下面来一起看看吧。
    2017-05-05
  • pycharm 使用心得(九)解决No Python interpreter selected的问题

    pycharm 使用心得(九)解决No Python interpreter selected的问

    PyCharm 是由JetBrains打造的一款 Python IDE。具有智能代码编辑器,能理解 Python 的特性并提供卓越的生产力推进工具:自动代码格式化、代码完成、重构、自动导入和一键代码导航等。这些功能在先进代码分析程序的支持下,使 PyCharm 成为 Python 专业开发人员和刚起步人员使用的有力工具。
    2014-06-06
  • PYTHON压平嵌套列表的简单实现

    PYTHON压平嵌套列表的简单实现

    下面小编就为大家带来一篇PYTHON压平嵌套列表的简单实现。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-06-06

最新评论