Python 网页解析HTMLParse的实例详解

 更新时间:2017年08月10日 09:24:09   作者:qindongliang1922  
这篇文章主要介绍了Python 网页解析HTMLParse的实例详解的相关资料,python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,需要的朋友可以参考下

Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:

现在一个模拟的html文件:

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html> 

需求是,提取出标题的属性值,以及内容:

代码如下:

import html.parser as h 
 
 
 
class MyHTMLParser(h.HTMLParser): 
  a_t=False 
  def handle_starttag(self, tag, attrs): 
    #print("开始一个标签:",tag) 
    print() 
    if str(tag).startswith("title"): 
      print(tag) 
      self.a_t=True 
      for attr in attrs: 
        print("  属性值:",attr) 
 
  def handle_endtag(self, tag): 
    if tag == "title": 
      self.a_t=False 
      #print("结束一个标签:",tag) 
 
  def handle_data(self, data): 
    if self.a_t is True: 
      print("得到的数据: ",data) 
 
 
 
p=MyHTMLParser() 
 
p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>") 
 
p.close() 

运行结果如下:

title 
  属性值: ('id', 'main') 
  属性值: ('mouse', '你好') 
得到的数据: 我是标题 

主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。

解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。

以上就是Python 网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

  • Python获取文件夹下的所有文件路径小结

    Python获取文件夹下的所有文件路径小结

    在Python编程过程中,需要获取某一个文件目录下的所有文件,或获取文件目录下的所有指定后缀名的文件等,本文主要介绍了Python获取文件夹下的所有文件路径,感兴趣的可以了解一下
    2023-10-10
  • Python httpx库入门指南(最新推荐)

    Python httpx库入门指南(最新推荐)

    Httpx 是一个用于发送 HTTP 请求的 Python 库,它提供了简单易用的 API,可以轻松地发送 GET、POST、PUT、DELETE 等请求,并接收响应,下面介绍下Python httpx库入门指南,感兴趣的朋友一起看看吧
    2023-12-12
  • Python画图学习入门教程

    Python画图学习入门教程

    这篇文章主要介绍了Python画图的方法,结合实例形式分析了Python基本的线性图、饼状图等绘制技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2016-07-07
  • 关于文件Permission denied解决方案(pip)

    关于文件Permission denied解决方案(pip)

    这篇文章主要介绍了文件Permission denied解决方案(pip),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • 浅谈python编译pyc工程--导包问题解决

    浅谈python编译pyc工程--导包问题解决

    这篇文章主要介绍了python编译pyc工程--导包问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • Python3.5文件修改操作实例分析

    Python3.5文件修改操作实例分析

    这篇文章主要介绍了Python3.5文件修改操作,结合实例形式分析了Python3.5针对txt文本文件的读写、修改等相关操作技巧,需要的朋友可以参考下
    2019-05-05
  • 对python中UDP,socket的使用详解

    对python中UDP,socket的使用详解

    今天小编就为大家分享一篇对python中UDP,socket的使用详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • python爬取cnvd漏洞库信息的实例

    python爬取cnvd漏洞库信息的实例

    今天小编就为大家分享一篇python爬取cnvd漏洞库信息的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • python图片二值化提高识别率代码实例

    python图片二值化提高识别率代码实例

    这篇文章主要介绍了python图片二值化提高识别率代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python中NumPy的数组拆分

    Python中NumPy的数组拆分

    这篇文章主要介绍了Python中NumPy的数组拆分,我们使用array_split()分割数组,将要分割的数组和分割数传递给它,如果将一个数组拆分为 3 个数组,则可以像使用任何数组元素一样从结果中访问它们,需要的朋友可以参考下
    2023-07-07

最新评论