利用node.js写一个爬取知乎妹纸图的小爬虫

更新时间：2017年05月03日 14:22:43 作者：qianlongo

这篇文章主要给大家介绍了利用node.js写一个爬取知乎妹纸图的小爬虫，文中给出了详细的示例代码和介绍，对大家具有一定的参考学习价值，需要的朋友可以参考学习，下面来一起看看吧。

前言

说起写node爬虫的原因，真是羞羞呀。一天，和往常一样，晚上吃过饭便刷起知乎来，首页便是推荐的你见过最漂亮的女生长什么样？,点进去各种漂亮的妹纸爆照啊！！!,看的我好想把这些好看的妹纸照片都存下来啊！一张张点击保存，就在第18张得时候，突然想起。我特么不是程序员么，这种手动草做的事，怎么能做，不行我不能丢程序员的脸了，于是便开始这次爬虫之旅。

原理

初入爬虫的坑，没有太多深奥的理论知识，要获取知乎上帖子中的一张图片，我把它归结为以下几步。

准备一个url(当然是诸如你见过最漂亮的女生长什么样？😄)
获取这个url的html内容，并分析其中的dom结构，遍历找到这些漂亮的妹纸图片url
获取图片内容
将图片内容写入本地文件

开始动手

大概知道原理之后我们就可以开干了

准备一个url

这个最简单了，去知乎随便一搜就是一大把，我们以

发一张你认为很漂亮的美女照片？

为例子，先来分析一下这个页面的dom结构,其实很简单，知乎的一个页面中会包含很多种类型的图片，有头像，用户评价上传的图片啥的。基本上在noscript种都可以找到对应的图片地址。

获取这个url的html内容,并且拿到当前页面noscript中的img链接

这一步我们需要会点简单的nodejs的知识，以及用到一个库叫cheerio,这个库具体是用来做什么的，详细请移步cheerio。

简单来说就是可以在命令行中使用jQuery来搜索遍历获取相应的元素。

那么怎样才能获取这个帖子的html呢

使用nodejs的https模块

var https = require('https')
getAllHtml (url, callback) {
 let sHtml = '',
 _this = this;
 https.get(url, (res) => {
 res.on('data', (data) => {
 sHtml += data;
 });
 res.on('end', () => {
 callback.bind(_this, sHtml)();
 })
 }).on('error', (err) => {
 console.log(err);
 });
}

通过以上操作拿到网站的html之后，便是遍历出我们需要的图片地址来了

filterHtml (sHtml, filePath) {
 let $ = cheerio.load(sHtml), // 将上一步拿到的网站html传入cheerio.load，便得到类似于包装过的jQuery对象，可以像jQuey的选择器一样来选择元素
 $Imgs = $('noscript img'),
 imgData = [],
 _this = this;
 $Imgs.each((i, e) => {
 let imgUrl = $(e).attr('src'); //取出对应的url
 imgData.push(imgUrl);
 // 将url传入开始下载
 _this.downloadImg(imgUrl, _this.filePath, 
 function (err) {
 console.log(imgUrl + 'has be down');
 });
 });
 console.log(imgData);
}

有了图片的url，如何下载到本地呢？

我们需要使用request这个库，简单的调用一下api再结合node原生写文件的api。

downloadImg (imgUrl, filePath, callback) {
 let fileName = this.parseFileName(imgUrl);
 request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback);
 }

到这里就大功告成了，是不是很简单!!!已经将源码上传，欢迎大家下载查看。

gitHub地址：https://github.com/qianlongo/node-small-crawler

本地下载地址：http://xiazai.jb51.net/201705/yuanma/node-small-crawler(jb51.net).rar

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用node.js能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持。

您可能感兴趣的文章:

node.js express安装及示例网站搭建方法(分享)
下面小编就为大家带来一篇node.js express安装及示例网站搭建方法(分享)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2016-08-08
node实现分片下载的示例代码
这篇文章主要介绍了node实现分片下载的示例代码，使用场景包括基于浏览器的流文件片段传输、基于客户端的分片下载等。感兴趣的小伙伴们可以参考一下
2018-10-10
node.js express和koa中间件机制和错误处理机制
这篇文章主要介绍了node.js express和koa中间件机制和错误处理机制,文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的朋友可以参考一下
2022-07-07
使用nodejs+express实现简单的文件上传功能
这篇文章主要介绍了使用nodejs+express完成简单的文件上传功能,需要的朋友可以参考下
2017-12-12
node.js中的buffer.length方法使用说明
这篇文章主要介绍了node.js中的buffer.length方法使用说明,本文介绍了buffer.length的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
2014-12-12
Windows中安装nvm进行Node版本控制与详细使用教程
nvm和npm都是node.js版本管理工具,但是为了解决node各种不同之间版本存在不兼容的问题,因此可以通过nvm安装和切换不同版本的node,感兴趣的可以了解一下
2023-09-09
node.js实现BigPipe详解
这篇文章主要介绍了node.js实现BigPipe详解,BigPipe是 Facebook 开发的优化网页加载速度的技术,BigPipe 的核心概念就是只用一个 HTTP 请求,只是页面元素不按顺序发送而已,需要的朋友可以参考下
2014-12-12
node.js中的buffer.toString方法使用说明
这篇文章主要介绍了node.js中的buffer.toString方法使用说明,本文介绍了buffer.toString的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
2014-12-12
nodejs中向HTTP响应传送进程的输出
这篇文章主要介绍了nodejs中向HTTP响应传送进程的输出 ,非常不错，具有参考借鉴价值，需要的朋友可以参考下
2017-03-03
node打造微信个人号机器人的方法示例
这篇文章主要介绍了node打造微信个人号机器人的方法示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-04-04