python爬虫入门教程之糗百图片爬虫代码分享

 更新时间:2014年09月02日 10:56:41   投稿:junjie  
这篇文章主要介绍了python爬虫入门教程之糗百图片爬虫代码分享,本文以抓取糗事百科内涵图为需求写了一个爬虫,,需要的朋友可以参考下

学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。

用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下,写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下:

复制代码 代码如下:

# -*- coding: utf-8 -*-
# 上面那句让代码里支持中文

#--------------------------------------- 
#   程序:糗百图片爬虫 
#   版本:0.1 
#   作者:赵伟 
#   日期:2013-07-25 
#   语言:Python 2.7 
#   说明:能设置下载的页数。没有做更多抽象和交互方面的优化。 
#---------------------------------------

import urllib2
import urllib
import re

#正则表达式,用来抓取图片的地址
pat = re.compile('<div class="thumb">\\n<img src=\"(ht.*?)\".*?>')

#用来合成网页的URL
nexturl1 = "http://m.qiushibaike.com/imgrank/page/"
nexturl2 = "?s=4582487&slow"

#页数计数
count = 1

#设置抓取的页数
while count < 3:

    print "Page " + str(count) + "\n"
    myurl = nexturl1 + str(count) + nexturl2
    myres = urllib2.urlopen(myurl)#抓取网页
    mypage = myres.read()#读取网页内容
    ucpage = mypage.decode("utf-8") #转码

    mat = pat.findall(ucpage)#用正则表达式抓取图片地址
       
    count += 1;
   
    if len(mat):
        for item in mat:
            print "url: " + item + "\n"
            fnp = re.compile('/(\w+\.\w+)$')#下面三行分离出图片文件的名称
            fnr = fnp.findall(item)
            fname = fnr[0]
            urllib.urlretrieve(item, fname)#下载图片
      
    else:
        print "no data"

使用方法:新建一个practice文件夹,将源代码保存为qb.py文件,并放在practice文件夹中,在命令行里执行python qb.py,即开始下载图片。可以修改源代码里面的while语句设置下载的页数。

相关文章

  • 基于python plotly交互式图表大全

    基于python plotly交互式图表大全

    今天小编就为大家分享一篇基于python plotly交互式图表大全,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python教程网络爬虫及数据可视化原理解析

    python教程网络爬虫及数据可视化原理解析

    这篇文章主要为大家介绍了python教程中网络爬虫及数据可视化原理的示例解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2021-10-10
  • Tornado 多进程实现分析详解

    Tornado 多进程实现分析详解

    这篇文章主要介绍了Tornado 多进程实现分析详解,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • Python3.9又更新了:dict内置新功能

    Python3.9又更新了:dict内置新功能

    这篇文章主要介绍了Python3.9又更新了:dict内置新功能,从文档中,我们可以看到官方透露的对 dict、math 等组件增加的新特性,以及下一步的开发进展
    2020-02-02
  • Python编程itertools模块处理可迭代集合相关函数

    Python编程itertools模块处理可迭代集合相关函数

    本篇博客将为你介绍Python函数式编程itertools模块中处理可迭代集合的相关函数,有需要的朋友可以借鉴参考下,希望可以有所帮助
    2021-09-09
  • 利用OpenCV+Tensorflow实现的手势识别

    利用OpenCV+Tensorflow实现的手势识别

    这几天没事,想着再学点一些视觉识别方向的东西,因为之前做了验证码识别,有了机器学习的信心,因此这次打算做个手势识别,下面这篇文章主要给大家介绍了关于利用OpenCV+Tensorflow实现的手势识别的相关资料,需要的朋友可以参考下
    2022-11-11
  • Python全栈之列表数据类型详解

    Python全栈之列表数据类型详解

    这篇文章主要给大家介绍了关于Python全栈之列表数据类型的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-10-10
  • Python+微信接口实现运维报警

    Python+微信接口实现运维报警

    这篇文章主要介绍了Python+微信接口实现运维报警的相关资料,需要的朋友可以参考下
    2016-08-08
  • Python的Tornado框架实现图片上传及图片大小修改功能

    Python的Tornado框架实现图片上传及图片大小修改功能

    Tornado是一个异步的Python Web开发框架,同时也是一个优秀的异步服务器开发库,这里我们将来讲解一下Python的Tornado框架实现图片上传及图片大小修改功能方面的一些重点:
    2016-06-06
  • Python将博客内容html导出为Markdown格式

    Python将博客内容html导出为Markdown格式

    Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转换为Markdown文件
    2025-04-04

最新评论