用Python写的图片蜘蛛人代码

 更新时间:2012年08月27日 15:12:34   作者:  
写了个图片蜘蛛人玩玩,抓了几个网页试试,感觉不不错。核心的代码可能20行也不到,简洁明了,嘻嘻。废话少说,翠花,上代码

复制代码 代码如下:

#coding=utf-8

import os
import sys
import re
import urllib

URL_REG = re.compile(r'(http://[^///]+)', re.I)
IMG_REG = re.compile(r'<img[^>]*?src=([/'"])([^/1]*?)/1', re.I)

def download(dir, url):
'''下载网页中的图片

@dir 保存到本地的路径
@url 网页url
'''
global URL_REG, IMG_REG

m = URL_REG.match(url)
if not m:
print '[Error]Invalid URL: ', url
return
host = m.group(1)

if not os.path.isdir(dir):
os.mkdir(dir)

# 获取html,提取图片url
html = urllib.urlopen(url).read()
imgs = [item[1].lower() for item in IMG_REG.findall(html)]
f = lambda path: path if path.startswith('http://') else /
host + path if path.startswith('/') else url + '/' + path
imgs = list(set(map(f, imgs)))
print '[Info]Find %d images.' % len(imgs)

# 下载图片
for idx, img in enumerate(imgs):
name = img.split('/')[-1]
path = os.path.join(dir, name)
try:
print '[Info]Download(%d): %s'% (idx + 1, img)
urllib.urlretrieve(img, path)
except:
print "[Error]Cant't download(%d): %s" % (idx + 1, img)

def main():
if len(sys.argv) != 3:
print 'Invalid argument count.'
return
dir, url = sys.argv[1:]
download(dir, url)

if __name__ == '__main__':
# download('D://Imgs', 'http://www.163.com')
main()

相关文章

  • Python Pandas数据分析工具用法实例

    Python Pandas数据分析工具用法实例

    这篇文章主要介绍了Python Pandas数据分析工具用法实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • pytorch常见的Tensor类型详解

    pytorch常见的Tensor类型详解

    今天小编就为大家分享一篇pytorch常见的Tensor类型详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python logging.info在终端没输出的解决

    python logging.info在终端没输出的解决

    这篇文章主要介绍了python logging.info在终端没输出的解决,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python for循环通过序列索引迭代过程解析

    Python for循环通过序列索引迭代过程解析

    这篇文章主要介绍了Python for循环通过序列索引迭代过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • python数据类型之间怎么转换技巧分享

    python数据类型之间怎么转换技巧分享

    在本篇文章里小编给大家分享的是关于python数据类型之间怎么转换实例以及小技巧内容,有兴趣的朋友们参考下。
    2019-08-08
  • python利用Opencv实现人脸识别功能

    python利用Opencv实现人脸识别功能

    这篇文章主要为大家详细介绍了python利用Opencv实现人脸识别功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-04-04
  • python定时任务apscheduler的详细使用教程

    python定时任务apscheduler的详细使用教程

    APScheduler的全称是Advanced Python Scheduler,它是一个轻量级的 Python定时任务调度框架,下面这篇文章主要给大家介绍了关于python定时任务apscheduler的详细使用教程,需要的朋友可以参考下
    2022-02-02
  • 人工智能学习Pytorch教程Tensor基本操作示例详解

    人工智能学习Pytorch教程Tensor基本操作示例详解

    这篇文章主要为大家介绍了人工智能学习Pytorch教程Tensor的基本操作示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • 浅谈Python类中的self到底是干啥的

    浅谈Python类中的self到底是干啥的

    这篇文章主要介绍了浅谈Python类中的self到底是干啥的,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • python3去掉string中的标点符号方法

    python3去掉string中的标点符号方法

    今天小编就为大家分享一篇python3去掉string中的标点符号方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01

最新评论