python制作花瓣网美女图片爬虫

 更新时间:2015年10月28日 09:20:04   投稿:hebedich  
本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地,需要的朋友可以参考下

花瓣图片的加载使用了延迟加载的技术,源代码只能下载20多张图片,修改后基本能下载所有的了,只是速度有点慢,后面再优化下

import urllib, urllib2, re, sys, os,requests
path=r"C:\wqa\beautify"
url = 'http://huaban.com/favorite/beauty'
#http://huaban.com/explore/zhongwenlogo/?ig1un9tq&max=327773629&limit=20&wfl=1
i_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.71 Safari/537.36"}
count=0

def urlHandle(url):
  req = urllib2.Request(url, headers=i_headers)
  html = urllib2.urlopen(req).read()
  reg = re.compile(r'"pin_id":(\d+),.+?"file":{"farm":"farm1", "bucket":"hbimg",.+?"key":"(.*?)",.+?"type":"image/(.*?)"', re.S)
  groups = re.findall(reg, html)
  return groups

def imgHandle(groups):
  if groups:
    for att in groups:  
      pin_id = att[0]
      att_url = att[1] + '_fw236'
      img_type = att[2]
      img_url = 'http://img.hb.aicdn.com/' + att_url

      r = requests.get(img_url)
      with open(path + att_url + '.' + img_type, 'wb') as fd:
        for chunk in r.iter_content():
          fd.write(chunk)

groups = urlHandle(url)
imgHandle(groups)

while(groups):
  count+=1
  print count
  pin_id = groups[-1][0]
  print pin_id
  urltemp = url+'/?max=' + str(pin_id) + '&limit=' + str(20) + '&wfl=1'
  print(urltemp)
  groups = urlHandle(urltemp)
  #print groups
  imgHandle(groups)

相关文章

  • python ocr简单示例之识别验证码

    python ocr简单示例之识别验证码

    OCR(Optical character recognition,光学字符识别)是一种将图像中的手写字或者印刷文本转换为机器编码文本的技术,下面这篇文章主要给大家介绍了关于python ocr简单示例之识别验证码的相关资料,需要的朋友可以参考下
    2023-01-01
  • Django完整增删改查系统实例代码

    Django完整增删改查系统实例代码

    Django实现增删改查,主要是依赖于models来实现的,下面这篇文章主要给大家介绍了关于Django完整增删改查系统的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-08-08
  • Python爬虫eval实现看漫画漫画柜mhgui实战分析

    Python爬虫eval实现看漫画漫画柜mhgui实战分析

    这篇文章主要为大家介绍了Python爬虫eval实现看漫画漫画柜mhgui实战分析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • python实现windows下文件备份脚本

    python实现windows下文件备份脚本

    这篇文章主要为大家详细介绍了python实现windows下文件备份的脚本,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • python分块读取大数据,避免内存不足的方法

    python分块读取大数据,避免内存不足的方法

    今天小编就为大家分享一篇python分块读取大数据,避免内存不足的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • pytorch模型的定义、修改、读取、断点续训深入解析

    pytorch模型的定义、修改、读取、断点续训深入解析

    模型定义是深度学习中重要的一环,PyTorch提供了强大而灵活的工具和函数,使我们能够轻松定义各种类型的深度学习模型,通过深入理解模型定义的原理和应用,我们能够更好地理解和设计自己的模型,从而提升深度学习任务的性能和效果
    2024-03-03
  • 下载官网python并安装的步骤详解

    下载官网python并安装的步骤详解

    在本篇文章里小编给大家整理了关于下载官网python并安装的步骤详解,需要的朋友们参考学习下。
    2019-10-10
  • Python创建文件和追加文件内容实例

    Python创建文件和追加文件内容实例

    这篇文章主要介绍了Python创建文件和追加文件内容实例,本文同时给出了把标准输出定向到文件实例,需要的朋友可以参考下
    2014-10-10
  • Python通过Geopandas实现地理空间数据可视化

    Python通过Geopandas实现地理空间数据可视化

    Geopandas是一个功能强大的Python库,它扩展了Pandas的功能,专门用于地理空间数据的处理和分析,下面我们来看看如何使用Geopandas进行地理空间数据可视化吧
    2025-03-03
  • python自动识别文本编码格式代码

    python自动识别文本编码格式代码

    今天小编就为大家分享一篇python自动识别文本编码格式代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12

最新评论