python抓取豆瓣图片并自动保存示例学习

 更新时间:2014年01月10日 09:22:55   作者:  
python抓取豆瓣图片并自动保存示例学习,示例使用了beautifulsoup库分析HTML代码,beautifulsoup是一个HTML/XML解析器,可以用来做网页爬虫

环境Python 2.7.6,BS4,在powershell或命令行均可运行。请确保安装了BS模块

复制代码 代码如下:

# -*- coding:utf8 -*-
# 2013.12.36 19:41 wnlo-c209
# 抓取dbmei.com的图片。

from bs4 import BeautifulSoup
import os, sys, urllib2

# 创建文件夹,昨天刚学会
path = os.getcwd()          # 获取此脚本所在目录
new_path = os.path.join(path,u'豆瓣妹子')
if not os.path.isdir(new_path):
 os.mkdir(new_path)


def page_loop(page=0):
 url = 'http://www.dbmeizi.com/?p=%s' % page
 content = urllib2.urlopen(url)

 soup = BeautifulSoup(content)

 my_girl = soup.find_all('img')  

    # 加入结束检测,写的不好....
 if my_girl ==[]:
  print u'已经全部抓取完毕'
  sys.exit(0)

 print u'开始抓取'
 for girl in my_girl:
  link = girl.get('src')
  flink = 'http://www.dbmeizi.com/' + link

  print flink
  content2 = urllib2.urlopen(flink).read()
  with open(u'豆瓣妹子'+'/'+flink[-11:],'wb') as code:   #在OSC上现学的
   code.write(content2)
 page = int(page) + 1
 print u'开始抓取下一页'
 print 'the %s page' % page
 page_loop(page)

page_loop().

相关文章

  • 为什么在函数中运行的 Python 代码速度更快?

    为什么在函数中运行的 Python 代码速度更快?

    对于Python解释器来说,读取和写入局部变量比全局变量更容易和更快,因为它们的作用域范围较小
    2023-09-09
  • Python日期与时间模块(datetime+time+Calendar+dateuil )相关使用讲解

    Python日期与时间模块(datetime+time+Calendar+dateuil )相关使用讲解

    这篇文章主要介绍了Python日期与时间模块(datetime+time+Calendar+dateuil )相关使用讲解,文章围绕主题展开详细的内容戒杀,具有一定的参考价值,需要的朋友可以参考一下
    2022-09-09
  • 一文详解Python中的行为验证码验证功能

    一文详解Python中的行为验证码验证功能

    最近在开发行为验证码,经常触及到关于验证类型的相关内容。但使用起来不太熟练,所以本文就来总结一下对行为验证码验证类型的理解
    2023-03-03
  • celery在python爬虫中定时操作实例讲解

    celery在python爬虫中定时操作实例讲解

    在本篇文章里小编给大家整理了一篇关于celery在python爬虫中定时操作实例讲解内容,需要的朋友们可以参考下。
    2020-11-11
  • Django程序的优化技巧

    Django程序的优化技巧

    如果你的Python程序或Django项目运行速度慢,先别急着怪Python或Django。其实程序运行效率是可以通过提升硬件水平、架构和数据库优化和改进算法来大大提升的。今天大江哥将分享一些主要Django性能优化手段,完全可以让你的Django程序跑得飞快。
    2021-04-04
  • Python 爬取网页图片详解流程

    Python 爬取网页图片详解流程

    没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来。今天网上冲浪看到很多美图,可是图片有点多,不想一张一张地复制粘贴,怎么办呢?办法总是有的,即便没有我们也可以创造一个办法
    2021-11-11
  • python3新特性函数注释Function Annotations用法分析

    python3新特性函数注释Function Annotations用法分析

    这篇文章主要介绍了python3新特性函数注释Function Annotations用法,结合实例形式分析了Python3函数注释的定义方法与使用技巧,需要的朋友可以参考下
    2016-07-07
  • Python高光谱遥感影像处理问题详细分析讲解

    Python高光谱遥感影像处理问题详细分析讲解

    这篇文章主要介绍了Python高光谱遥感影像处理问题,总的来说这并不是一道难题,那为什么要拿出这道题介绍?拿出这道题真正想要传达的是解题的思路,以及不断优化探寻最优解的过程。希望通过这道题能给你带来一种解题优化的思路
    2023-01-01
  • matplotlib jupyter notebook 图像可视化 plt show操作

    matplotlib jupyter notebook 图像可视化 plt show操作

    这篇文章主要介绍了matplotlib jupyter notebook 图像可视化 plt show操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Python实现计算AUC的三种方式总结

    Python实现计算AUC的三种方式总结

    AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积。本文总结了Python语言实现计算AUC的三种方式,感兴趣的可以学习一下
    2022-07-07

最新评论