python爬取NUS-WIDE数据库图片

 更新时间:2016年10月05日 10:45:19   作者:leo-sun  
本文给大家分享的是使用Python制作爬虫爬取图片的小程序,非常的简单,但是很实用,有需要的小伙伴可以参考下

实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm   由于这个数据只给了每个图片的URL,所以需要一个小爬虫程序来爬取这些图片。在图片的下载过程中建议使用VPN。由于一些URL已经失效,所以会下载一些无效的图片。

# PYTHON 2.7   Ubuntu 14.04
nuswide = "$NUS-WIDE-urls_ROOT" #the location of your nus-wide-urls.txt
imagepath = "$IMAGE_ROOT" # path of dataset you want to download in
f = open(nuswide, 'r')
url = f.readlines()
import re
import urllib
import os
reg = r"ImageData.+?jpg"
location_re = re.compile(reg)
reg = r"(ImageData.+?)/0"
direction_re = re.compile(reg)
reg = r"http.+?jpg"
image_re = re.compile(reg)
for i in url:
  filename = re.findall(location_re, i)
  direction = re.findall(direction_re, i)
  image = re.findall(image_re, i)
  if image:
    path = imagepath+filename[0]
    path_n = imagepath+direction[0]
    print path_n
    if os.path.exists(path_n):
      urllib.urlretrieve(image[1], path)
    else:
      os.makedirs(path_n)
      urllib.urlretrieve(image[1], path)

再给大家分享一个爬取百度贴吧图片的小爬虫(你懂得)

#coding=utf-8

#urllib模块提供了读取Web页面数据的接口
import urllib
#re模块主要包含了正则表达式
import re
#定义一个getHtml()函数
def getHtml(url):
  page = urllib.urlopen(url) #urllib.urlopen()方法用于打开一个URL地址
  html = page.read() #read()方法用于读取URL上的数据
  return html

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'  #正则表达式,得到图片地址
  imgre = re.compile(reg)   #re.compile() 可以把正则表达式编译成一个正则表达式对象.
  imglist = re.findall(imgre,html)   #re.findall() 方法读取html 中包含 imgre(正则表达式)的  数据
  #把筛选的图片地址通过for循环遍历并保存到本地
  #核心是urllib.urlretrieve()方法,直接将远程数据下载到本地,图片通过x依次递增命名
  x = 0

  for imgurl in imglist:
  urllib.urlretrieve(imgurl,'D:\E\%s.jpg' % x)
      x+=1


html = getHtml("http://tieba.baidu.com/p/xxxx")
print getImg(html)

相关文章

  • Python读取配置文件-ConfigParser的二次封装方法

    Python读取配置文件-ConfigParser的二次封装方法

    这篇文章主要介绍了Python读取配置文件-ConfigParser的二次封装方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • python使用Image处理图片常用技巧分析

    python使用Image处理图片常用技巧分析

    这篇文章主要介绍了python使用Image处理图片的常用技巧,实例分析了Python使用image处理图片过程中改变图片大小、图片类型及远程图片中常见问题与解决方法,需要的朋友可以参考下
    2015-06-06
  • Python简单实现的代理服务器端口映射功能示例

    Python简单实现的代理服务器端口映射功能示例

    这篇文章主要介绍了Python简单实现的代理服务器端口映射功能,结合实例形式分析了Python模拟服务器、代理服务器及客户端访问的相关操作技巧,需要的朋友可以参考下
    2018-04-04
  • jupyter安装小结

    jupyter安装小结

    jupyter (之前的 ipython notebook )于我的最大意义在于,让学习进程和探索进程变得可累积,正如它的原先名字中的 notebook 所暗示的那样,作为学习的记录者,方便你随时捡起学习的进度,增量式地前进
    2016-03-03
  • python中class的定义及使用教程

    python中class的定义及使用教程

    这篇文章主要介绍了python中class的定义及使用,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • Python StrEnum基本概念和使用场景分析

    Python StrEnum基本概念和使用场景分析

    StrEnum是Python枚举家族的一个强大补充,特别适合处理字符串常量,它结合了枚举的类型安全性和字符串的灵活性,使得在许多场景下的编程变得更加简洁和安全,本文将介绍StrEnum的基本概念和使用场景,并通过示例代码来展示它的实际应用,感兴趣的朋友跟随小编一起看看吧
    2024-07-07
  • Python中内建函数的简单用法说明

    Python中内建函数的简单用法说明

    这篇文章主要介绍了Python中内建函数的简单用法说明,包括apply()、filter()、reduce()、map()四个函数的用法讲解,需要的朋友可以参考下
    2016-05-05
  • Python深入06——python的内存管理详解

    Python深入06——python的内存管理详解

    本篇文章主要介绍了python的内存管理详解,语言的内存管理是语言设计的一个重要方面。它是决定语言性能的重要因素。有兴趣的同学可以了解一下。
    2016-12-12
  • 一次性彻底讲透Python中pd.concat与pd.merge

    一次性彻底讲透Python中pd.concat与pd.merge

    本文主要介绍了一次性彻底讲透Python中pd.concat与pd.merge,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • 手把手教你利用Python创建一个游戏窗口

    手把手教你利用Python创建一个游戏窗口

    pygame是python用来写游戏的扩展包,用这个扩展包,可以比较容易的构造一个游戏窗口,这篇文章主要给大家介绍了关于如何利用Python创建一个游戏窗口的相关资料,需要的朋友可以参考下
    2022-07-07

最新评论