nodejs制作爬虫实现批量下载图片

更新时间：2017年05月19日 08:50:13 作者：芒果屋里的猫

本文给大家分享的是作者使用nodejs制作爬虫来爬去图片并批量下载的全过程，非常的细致，有需要的小伙伴可以参考下

今天想获取一大批猫的图片，然后就在360流浪器搜索框中输入 猫 ，然后点击图片。就看到了一大波猫的图片： http://image.so.com/i?q=%E7%8... ，我在想啊，要是审查元素，一张张手动下载，多麻烦，所以打算写程序来实现。不写不知道，一写发现里面还是有很多道道的。

1. 爬取图片链接

因为之前也写过nodejs爬虫功能（参见：NodeJS制作爬虫全过程），所以觉得应该很简单，就用cheerio来处理dom啦，结果打印一下啥也没有，后来查看源代码：

发现 waterfall_zoom 里面空空如也，查找了一下，发现所有的数据都是写在 <script> 里面，然后动态加载到页面的，所以用cheerio.load到的页面里面其实没数据的。真实数据：

分析完毕，刷刷写代码：

var request = require('request');
var cheerio = require('cheerio');
var url = 'http://image.so.com/i?q=%E7%8C%AB&src=tab_www';

request(url,function(err,res,body){
  if(!err && res.statusCode === 200){
    var $ = cheerio.load(body);
    var imgList = []
    JSON.parse($('script[id="initData"]').html()).list.forEach(function(item){
      imgList.push(item.img)
    });
    console.log(imgList);
  }
});

2. 下载图片到本地 2.1 粗糙的方案

最初的思路很简单，简单的 fs.createWriteStream() 就能解决：

var downloadPic = function(src, dest){
  request(src).pipe(fs.createWriteStream(dest)).on('close',function(){
    console.log('pic saved!')
  })
}

使用方式：

downloadPic(imgList[0],'./catpics/1.jpg');

成功捕获一只猫！然后写了一个循环准备捕获所有猫。然而这种方式是串行的，速度很慢！下载一大批图片要花大量时间。

2.2 使用async异步批量下载

关于async的map操作，详见： async_demo/map.js ，对集合中的每一个元素，执行某个异步操作，得到结果。所有的结果将汇总到最终的callback里。与forEach的区别是，forEach只关心操作不管最后的值，而map关心的最后产生的值。

提供了两种方式：

并行执行。 async.map 同时对集合中所有元素进行操作，结果汇总到最终callback里。如果出错，则立刻返回错误以及已经执行完的任务的结果，未执行完的占个空位

顺序执行。 async.mapSeries 对集合中的元素一个一个执行操作，结果汇总到最终callback里。如果出错，则立刻返回错误以及已经执行完的结果，未执行的被忽略。

在此处：

async.mapSeries(imgList,function(item, callback){
  setTimeout(function(){
    downloadPic(item, './catpics/'+ (new Date()).getTime() +'.jpg');
    callback(null, item);
  },400);
}, function(err, results){});

注： 此处使用setTimeout，是因为下载需要一定时间，在笔者较慢网速下，需要400ms的间隔能确保每张图片下载完全。

成功捕获一批猫猫！

2.3 使用bagpipe批量

bagpipe 是朴灵大大做的一个在nodejs中控制并发执行的模块。其安装和使用也比较简单:

npm install bagpipe --save

使用：

var Bagpipe = require('bagpipe');

var bagpipe = new Bagpipe(10);
var files = ['这里有很多很多文件'];
for(vari =0; i < files.length; i++){
  bagpipe.push(fs.readFile, files[i], 'utf-8',function(err, data){
    ...
  });
}

在此处：

var bagpipe = new Bagpipe(10,{timeout: 100});
for(var i = 0; i < imgList.length; i++) {
  console.log('i:'+i)
  bagpipe.push(downloadPic, imgList[i], './catpics/'+ i +'.jpg', function(err, data){
    //
   });
}

3.总结

作为一个程序员，能用程序解决就不手动解决。每一次尝都会有新的收获。

您可能感兴趣的文章:

使用NestJS开发Node.js应用的方法
这篇文章主要介绍了使用NestJS开发Node.js应用的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-12-12
关于在mongoose中填充外键的方法详解
在学习非关系型数据库mongoDB,希望能够完成数据库的CRUD,采用的是JS做的后台,因此用到了mongoose，下面这篇文章主要给大家介绍了关于在mongoose中填充外键的相关资料，文中介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-08-08
使用Node.js给图片加水印的方法
使用Node.js给图片加水印，首先要确保本地安装了node环境。然后，我们进行图像编辑操作需要用到一个Node.js的库：images。具体详情大家可以通过本文了解下
2016-11-11
node.js中的模块化标准CommonJS与自定义模块
这篇文章介绍了node.js中的模块化标准CommonJS与自定义模块，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-06-06
Node.js高级编程cluster环境及源码调试详解
这篇文章主要为大家介绍了Node.js高级编程cluster环境及源码调试详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-12-12
VSCode如何调试Nodejs问题
这篇文章主要介绍了VSCode如何调试Nodejs问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2025-03-03
如何使用docker直接运行不同版本nodejs命令
这篇文章主要介绍了如何使用docker直接运行不同版本nodejs命令,在不支持高版本Node.js的旧版操作系统上,可以通过Docker容器技术解决兼容性问题,需要的朋友可以参考下
2024-10-10
Nodejs模块的调用操作实例分析
这篇文章主要介绍了Nodejs模块的调用操作,结合实例形式分析了nodejs模块的定义与调用相关操作技巧,需要的朋友可以参考下
2018-12-12
Nodejs下用submit提交表单提示cannot post错误的解决方法
这篇文章主要介绍了Nodejs下用submit提交表单提示cannot post错误的解决方法,非常不错，具有参考借鉴价值，感兴趣的朋友一起看看吧
2016-11-11
NodeJs测试框架Mocha的安装与使用
本文全面介绍如何使用Mocha，让你轻松上手。如果你以前对测试一无所知，本文也可以当作JavaScript单元测试入门。
2017-03-03

nodejs制作爬虫实现批量下载图片

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具