python妹子图简单爬虫实例

更新时间：2015年07月07日 15:06:08 作者：tpythoner

这篇文章主要介绍了python妹子图简单爬虫,实例分析了Python爬虫程序所涉及的页面源码获取、进度显示、正则匹配等技巧,需要的朋友可以参考下

本文实例讲述了python妹子图简单爬虫实现方法。分享给大家供大家参考。具体如下：

#!/usr/bin/env python
#coding: utf-8
import urllib
import urllib2
import os
import re
import sys
#显示下载进度
def schedule(a,b,c):
  '''''
  a:已经下载的数据块
  b:数据块的大小
  c:远程文件的大小
  '''
  per = 100.0 * a * b / c
  if per > 100 :
    per = 100
  print '%.2f%%' % per
#获取html源码
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html
#下载图片
def downloadImg(html, num, foldername):
  picpath = '%s' % (foldername) #下载到的本地目录
  if not os.path.exists(picpath): #路径不存在时创建一个
    os.makedirs(picpath)
  target = picpath+'/%s.jpg' % num
  myItems = re.findall('<p><a href="http:\/\/www.mzitu.com/.*?" ><img src="(.*?)" alt=".*?" /></a></p>',html,re.S)
  print 'Downloading image to location: ' + target
  urllib.urlretrieve(myItems[0], target, schedule)
#正则匹配分页
def findPage(html):
  myItems = re.findall('<span>(\d*)</span>', html, re.S)
  return myItems.pop()
#正则匹配列表
def findList(html):
  myItems = re.findall('<h2><a href="http://www.mzitu.com/(\d*)" title="(.*?)" target="_blank">.*?</a></h2>', html, re.S)
  return myItems
#总下载
def totalDownload(modelUrl):
  listHtml5 = getHtml(modelUrl)
  listContent = findList(listHtml)
  for list in listContent:
    html = getHtml('http://www.mzitu.com/' + str(list[0]))
    totalNum = findPage(html)
    for num in range(1, int(totalNum)+1):
      if num == 1:
        url = 'http://www.mzitu.com/' + str(list[0])
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
      else:
        url = 'http://www.mzitu.com/' + str(list[0]) + '/'+str(num)
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
if __name__ == '__main__':
  listHtml = getHtml('http://www.mzitu.com/model')
  #这是其中一个模块的url，可以添加不同的模块url从而达到整站爬取。
  for model in range(1, int(findPage(listHtml))+1):
    if model == 1:
      modelUrl = 'http://www.mzitu.com/model'
      totalDownload(modelUrl)
    else:
      modelUrl = 'http://www.mzitu.com/model/page/' + str(model)
      totalDownload(modelUrl)
  print "Download has finished."

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

Matlab读取excel并利用拉依达准则筛选数据的全过程
在Excel中录入好数据以后经常需要被matlab读取,具体该如何读取并进行筛选呢？下面这篇文章就来给大家介绍了关于Matlab读取excel并利用拉依达准则筛选数据的相关资料,需要的朋友可以参考下
2021-08-08
flask框架实现修改密码和免密登录功能
flask是python web开发的常用框架之一。本文将讲述flask如何实现修改密码和免密登录功能
2021-05-05
Python web框架实现增加BasicAuth认证详解
这篇文章主要为大家详细介绍了Python如何在web框架中实现增加BasicAuth认证，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起了解一下
2023-05-05
Python机器学习NLP自然语言处理Word2vec电影影评建模
本文是Python机器学习NLP自然语言处理系列文章，带大家开启一段学习自然语言处理 (NLP) 的旅程. 本篇文章主要学习NLP自然语言处理基本操作Word2vec电影影评建模
2021-09-09
基于Python实现对PDF文件的OCR识别
大家可能听说过使用Python进行OCR识别操作。在Python中，最出名的库便是Google所资助的tesseract。利用tesseract可以很轻松地对图像进行识别。现在问题来了，如果想对一个PDF文档进行OCR识别，该怎么做呢？下面一起来看看。
2016-08-08
解读NumPy数组与Python列表的比较
在Python中处理数值数据时,可以选择使用Python列表或NumPy数组,Python列表灵活,可存储不同类型元素,但在大数据处理上可能较慢,NumPy数组固定类型,内存连续存储,执行数组操作如加法、乘法等更高效,尤其在大数据集处理上具有明显的性能和内存使用优势
2024-10-10
如何使用matplotlib让你的数据更加生动
数据可视化用于以更直接的表示方式显示数据,并且更易于理解,下面这篇文章主要给大家介绍了关于如何使用matplotlib让你的数据更加生动的相关资料,需要的朋友可以参考下
2021-11-11
Python中使用urllib2防止302跳转的代码例子
这篇文章主要介绍了Python中使用urllib2防止302跳转的代码例子,即避免302跳转的实现,需要的朋友可以参考下
2014-07-07
Python随机生成均匀分布在三角形内或者任意多边形内的点
这篇文章主要为大家详细介绍了Python随机生成均匀分布在三角形内或者任意多边形内的点，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-12-12
Python 在PDF中绘制线条、矩形、椭圆形的方法
这篇文章主要介绍了Python在PDF中绘制线条、矩形、椭圆形,本文将通过以下几个示例介绍如何使用Python在PDF中绘制不同的图形,需要的朋友可以参考下
2024-11-11

python妹子图简单爬虫实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具