python爬取NUS-WIDE数据库图片

 更新时间:2016年10月05日 10:45:19   作者:leo-sun  
本文给大家分享的是使用Python制作爬虫爬取图片的小程序,非常的简单,但是很实用,有需要的小伙伴可以参考下

实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm   由于这个数据只给了每个图片的URL,所以需要一个小爬虫程序来爬取这些图片。在图片的下载过程中建议使用VPN。由于一些URL已经失效,所以会下载一些无效的图片。

# PYTHON 2.7   Ubuntu 14.04
nuswide = "$NUS-WIDE-urls_ROOT" #the location of your nus-wide-urls.txt
imagepath = "$IMAGE_ROOT" # path of dataset you want to download in
f = open(nuswide, 'r')
url = f.readlines()
import re
import urllib
import os
reg = r"ImageData.+?jpg"
location_re = re.compile(reg)
reg = r"(ImageData.+?)/0"
direction_re = re.compile(reg)
reg = r"http.+?jpg"
image_re = re.compile(reg)
for i in url:
  filename = re.findall(location_re, i)
  direction = re.findall(direction_re, i)
  image = re.findall(image_re, i)
  if image:
    path = imagepath+filename[0]
    path_n = imagepath+direction[0]
    print path_n
    if os.path.exists(path_n):
      urllib.urlretrieve(image[1], path)
    else:
      os.makedirs(path_n)
      urllib.urlretrieve(image[1], path)

再给大家分享一个爬取百度贴吧图片的小爬虫(你懂得)

#coding=utf-8

#urllib模块提供了读取Web页面数据的接口
import urllib
#re模块主要包含了正则表达式
import re
#定义一个getHtml()函数
def getHtml(url):
  page = urllib.urlopen(url) #urllib.urlopen()方法用于打开一个URL地址
  html = page.read() #read()方法用于读取URL上的数据
  return html

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'  #正则表达式,得到图片地址
  imgre = re.compile(reg)   #re.compile() 可以把正则表达式编译成一个正则表达式对象.
  imglist = re.findall(imgre,html)   #re.findall() 方法读取html 中包含 imgre(正则表达式)的  数据
  #把筛选的图片地址通过for循环遍历并保存到本地
  #核心是urllib.urlretrieve()方法,直接将远程数据下载到本地,图片通过x依次递增命名
  x = 0

  for imgurl in imglist:
  urllib.urlretrieve(imgurl,'D:\E\%s.jpg' % x)
      x+=1


html = getHtml("http://tieba.baidu.com/p/xxxx")
print getImg(html)

相关文章

  • python批量创建变量并赋值操作

    python批量创建变量并赋值操作

    这篇文章主要介绍了python批量创建变量并赋值操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • python入门学习笔记分享

    python入门学习笔记分享

    这篇文章主要介绍了关于Python的一些总结,希望自己以后在学习Python的过程中可以边学习边总结,就自己之前的学习先做以总结,之后将不断总结更新
    2021-10-10
  • python list与numpy数组效率对比

    python list与numpy数组效率对比

    这篇文章主要介绍了python list与numpy数组效率对比分析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Python打开与读取文件操作的常用方法

    Python打开与读取文件操作的常用方法

    这篇文章主要介绍了Python打开与读取文件操作的常用方法,通过编写代码自动化操作文件,读写文件、打开文件、写入文件、删除文件一系列都称作为电脑的操作,需要的朋友可以参考下
    2023-07-07
  • 详解Python执行py文件是否需要可执行权限

    详解Python执行py文件是否需要可执行权限

    这篇文章主要通过几个案例为大家详细介绍一下在Python中执行py文件是否需要可执行权限,文中的示例代码讲解详细,对我们学习Python有一定帮助,需要的可以了解一下
    2023-03-03
  • python把数组中的数字每行打印3个并保存在文档中的方法

    python把数组中的数字每行打印3个并保存在文档中的方法

    今天小编就为大家分享一篇python把数组中的数字每行打印3个并保存在文档中的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • 简单了解python元组tuple相关原理

    简单了解python元组tuple相关原理

    这篇文章主要介绍了简单了解python元组tuple相关原理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • Python pathlib模块实例详解

    Python pathlib模块实例详解

    本文给大家介绍了Python的pathlib 模块,为 Python 工程师对该模块的使用提供了支撑,让大家了解如何使用 pathlib 模块读写文件、操纵文件路径和基础文件系统,统计目录下的文件类型以及查找匹配目录下某一类型文件等,需要的朋友参考下吧
    2023-05-05
  • Windows10下Tensorflow2.0 安装及环境配置教程(图文)

    Windows10下Tensorflow2.0 安装及环境配置教程(图文)

    这篇文章主要介绍了Windows10下Tensorflow2.0 安装及环境配置教程(图文),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • Python面向对象之私有属性和私有方法应用案例分析

    Python面向对象之私有属性和私有方法应用案例分析

    这篇文章主要介绍了Python面向对象之私有属性和私有方法,结合具体案例形式简单分析了面向对象程序设计中私有属性与私有方法的基本功能与使用注意事项,需要的朋友可以参考下
    2019-12-12

最新评论