Python HTML解析模块HTMLParser用法分析【爬虫工具】

 更新时间:2019年04月05日 10:14:18   作者:蔷薇Nina  
这篇文章主要介绍了Python HTML解析模块HTMLParser用法,结合实例形式分析了HTMLParser模块功能、常用函数及作为爬虫工具相关使用技巧,需要的朋友可以参考下

本文实例讲述了Python HTML解析模块HTMLParser用法。分享给大家供大家参考,具体如下:

简介

先简略介绍一下。实际上,HTMLParser是python用来解析HTML的内置模块。它可以分析出HTML里面的标签、数据等等,是一种处理HTML的简便途径。HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用户回调函数的命名都是以"handle_"开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以"handle_"开头的函数即可。这几个函数包括:

(1)handle_startendtag    处理开始标签和结束标签(即单标签)
(2)handle_starttag          处理开始标签,比如<xx>
(3)handle_endtag           处理结束标签,比如</xx>
(4)handle_charref           处理特殊字符串,就是以&#开头的,一般是内码表示的字符
(5)handle_entityref        处理一些特殊字符,以&开头的,比如 &nbsp;
(6)handle_data              处理数据,就是<xx>data</xx>中间的那些数据
(7)handle_comment          处理注释
(8)handle_decl               处理<!开头的,比如<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
(9)handle_pi                   处理形如<?instruction>的东西

实例

OK,废话少说,直接上手,来一个简单的爬虫实例——抓取贴吧图片。

from html.parser import HTMLParser
from urllib import request
class MyHTMLParser(HTMLParser):   # 创建HTML解析类
  def __init__(self):
    HTMLParser.__init__(self)
    self.gifs_urls = []     # 创建列表,保存gif
    self.jpgs_urls = []     # 创建列表,保存jpg
  # 重写HTMLParser中的内置方法
  def handle_starttag(self, tags, attrs): # 处理起始标记
    if tags == 'img':  # 处理图片
      for attr in attrs:
        for t in attr:
          if 'gif' in t and 'https' in t:
            self.gifs_urls.append(t)  # 添加到gif列表
          elif 'jpg' in t and 'https' in t:
            self.jpgs_urls.append(t)  # 添加到jpg列表
          else:
            pass
  # 自定义的方法
  def get_gifs(self):   # 返回gif列表
    return self.gifs_urls
  def get_jpgs(self):   # 返回jpg列表
    return self.jpgs_urls
  # 自定义的方法,获取页面
  def getHTML(self,url):
    req=request.Request(url,method='GET')
    html=request.urlopen(req,timeout=30)
    return html.read()
  # 自定义的方法,批量下载图片
  def downImgs(self,img_urls,n=10,path='Image/'):
    count=1
    for url in img_urls:
      request.urlretrieve(url=url,filename='{0}{1}{2}'.format(path,count,'.jpg'))
      count=count+1
      if count == n + 1:
        print('共下载%d张图片' %(n))
        return
if __name__ == '__main__':
  Url = 'http://tieba.baidu.com/p/2256306796'
  HtmlParser=MyHTMLParser()
  Html=HtmlParser.getHTML(Url)
  # print(Html)
  HtmlParser.feed(str(Html))   #开始解析HTML,自动调用HTMLParser中的内置方法
  HtmlParser.downImgs(HtmlParser.get_jpgs())

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • Python list sort方法的具体使用

    Python list sort方法的具体使用

    list.sort()方法是Python的列表方法,用于对原列表进行排序。本文详细的介绍了list.sort的具体使用,具有一定的参考价值,感兴趣的可以了解一下
    2021-12-12
  • Python使用百度API上传文件到百度网盘代码分享

    Python使用百度API上传文件到百度网盘代码分享

    这篇文章主要介绍了Python使用百度API上传文件到百度网盘代码分享,本文使用了一个第三方库poster,在文中给出了链接,需要的朋友可以参考下
    2014-11-11
  • django上传图片并生成缩略图方法示例

    django上传图片并生成缩略图方法示例

    这篇文章主要介绍了django上传图片并生成缩略图方法示例,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • Python输出\u编码将其转换成中文的实例

    Python输出\u编码将其转换成中文的实例

    今天小编就为大家分享一篇Python输出\u编码将其转换成中文的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • python处理emoji表情(两个函数解决两者之间的联系)

    python处理emoji表情(两个函数解决两者之间的联系)

    这篇文章主要介绍了python处理emoji表情,主要通过两个函数解决两者之间的联系,本文通过实例代码给大家介绍的非常完美,对python emoji表情的相关知识感兴趣的朋友一起看看吧
    2021-05-05
  • Python调用讯飞语音合成API接口来实现文字转语音

    Python调用讯飞语音合成API接口来实现文字转语音

    这篇文章主要为大家介绍了Python调用讯飞语音合成API接口来实现文字转语音方法示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • python 点云地面点滤波-progressive TIN densification(PTD)算法介绍

    python 点云地面点滤波-progressive TIN densification(PTD)算法介绍

    关于地面点滤波的概念我们要与孤立点(outlier)滤波区分开,孤立点滤波可以理解为图像中的去噪,去除数据测量过程中受到飞鸟、多路径效应所产生的远低于/高于其他数据的点。今天通过本文给大家分享python PTD点云地面点滤波的相关知识,一起看看吧
    2021-08-08
  • Python如何对齐字符串

    Python如何对齐字符串

    这篇文章主要介绍了Python如何对齐字符串,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • Python爬虫实战JS逆向AES逆向加密爬取

    Python爬虫实战JS逆向AES逆向加密爬取

    一个建筑行业的堂哥为了搞一些商业数据前前后后花了1w,辣条我半个小时就能解决的事情,这就是技术的魅力!声明:爬取是的公开数据
    2021-10-10
  • python 如何求N的阶乘

    python 如何求N的阶乘

    这篇文章主要介绍了python 如何求N的阶乘,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05

最新评论