Python 网页解析HTMLParse的实例详解

更新时间：2017年08月10日 09:24:09 作者：qindongliang1922

这篇文章主要介绍了Python 网页解析HTMLParse的实例详解的相关资料,python里提供了一个简单的解析模块HTMLParser类，使用起来也是比较简单的，解析语法没有用到XPath类似的简洁模式,需要的朋友可以参考下

Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后，下一步我们就应该解析网页，提取我们所需要的内容了，在python里提供了一个简单的解析模块HTMLParser类，使用起来也是比较简单的，解析语法没有用到XPath类似的简洁模式，但新手用起来还是比较容易的，看下面的例子：

现在一个模拟的html文件：

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>

需求是，提取出标题的属性值，以及内容：

代码如下：

import html.parser as h 
 
 
 
class MyHTMLParser(h.HTMLParser): 
  a_t=False 
  def handle_starttag(self, tag, attrs): 
    #print("开始一个标签:",tag) 
    print() 
    if str(tag).startswith("title"): 
      print(tag) 
      self.a_t=True 
      for attr in attrs: 
        print("  属性值：",attr) 
 
  def handle_endtag(self, tag): 
    if tag == "title": 
      self.a_t=False 
      #print("结束一个标签:",tag) 
 
  def handle_data(self, data): 
    if self.a_t is True: 
      print("得到的数据: ",data) 
 
 
 
p=MyHTMLParser() 
 
p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>") 
 
p.close()

运行结果如下：

title 
  属性值： ('id', 'main') 
  属性值： ('mouse', '你好') 
得到的数据: 我是标题

主要的技术就是继承了HTMLParser类，然后重写了里面的一些方法，来完成自己的业务，从上面的代码里，发现如果想获取某个标签的内容，还是比较麻烦的，当然这是python里面最简单的html解析方式，还有很多其他组件，scrapy等等，里面支持Xpath路径解析，使用起来非常简洁清爽。

解析代码学会之后，我们就可以将使用urllib包，抓取到的数据交给htmlparser解析，从而提取出我们所需要的内容。

以上就是Python 网页解析HTMLParse的实例详解，如有疑问请留言或者到本站社区交流讨论，感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

您可能感兴趣的文章:

一文详解CNN 解决 Flowers 图像分类任务
这篇文章主要为大家介绍了CNN 解决 Flowers 图像分类任务详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
使用Python项目生成所有依赖包的清单方式
这篇文章主要介绍了使用Python项目生成所有依赖包的清单方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-07-07
pytorch VGG11识别cifar10数据集(训练+预测单张输入图片操作)
这篇文章主要介绍了pytorch VGG11识别cifar10数据集(训练+预测单张输入图片操作)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
python获取图片颜色信息的方法
这篇文章主要介绍了python获取图片颜色信息的方法,涉及Python使用pil模操作图片的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-03-03
关于DataFrame中某列值的替换map(dict)
这篇文章主要介绍了关于DataFrame中某列值的替换map(dict),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02
Python一键安装全部依赖包的方法
今天小编就为大家分享一篇Python一键安装全部依赖包的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
2021年值得向Python开发者推荐的VS Code扩展插件
这篇文章主要介绍了2021年值得向Python开发者推荐的VS Code扩展插件，帮助大家更好的利用vscode进行python的开发，感兴趣的朋友可以了解下
2021-01-01
PyQt5 实现状态栏永久显示消息
这篇文章主要介绍了PyQt5 实现状态栏永久显示消息的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
pytorch中的nn.ZeroPad2d()零填充函数实例详解
这篇文章主要介绍了pytorch中的nn.ZeroPad2d()零填充函数实例详解,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-04-04
让Python代码更快运行的5种方法
这篇文章主要介绍了让Python代码更快运行的5种方法,本文分别介绍了PyPy、Pyston、Nuitka、Cython、Numba等开源软件,可以提升Python的运行效率,需要的朋友可以参考下
2015-06-06