nodejs实现爬取网站图片功能

 更新时间:2017年12月14日 14:16:47   投稿:laozhang  
给大家通过一个实例来教学如何用nodejs实现爬取网站图片功能,有兴趣的朋友收藏一下吧。

通过实例给大家讲解nodejs实现爬取网站图片功能,以下就是全部内容:

原理:

爬虫是最明显的IO密集型应用场景,显然用node,使得I/O等待开销小数据挖掘比较方便

借助express模块来搭建node服务

并使用request模块获取目标页面的html代码

下载cheerio模块对html代码做处理(cheerio类似jQuery的语法,所以好用又方便)

环境配置:

npm install express request cheerio --save

(1)引入各个模块

var http = require('http');
var request = require('request);
var cheerio = require('cheerio');
var fs = require('fs'); //用来操作文件
var url = 'https://movie.douban.com/cinema/nowplaying/beijing/' //定义要爬的页面

(2)发送请求

http.get(function(res){
  var html = '';
  var titles = [];
  res.setEncoding('utf-8') //防止中文乱码
  res.on('data',function(chunk){
    html += chrunk;    //监听data事件 每次取一块数据
  })
  res.on('end',function(){
    var $ = cheerio.load(html);  //获取数据完成后,解析html
    //将获取的图片存到images文件夹中
    $('.mod-bd img').each(function(index, item){
      //获取图片属性
      var imgName = $(this).parent().next().text().trimg()
      var imgfile = imgName + '.jpeg';
      var imgSrc = $(this).attr('src')
      //采用request模块,向服务器发起请求 获取图片资源
      request.head(imgSrc, function(error, res,body){
        if(error){
          console.log('失败了')
        }
      });
      //通过管道的方式用fs模块将图片写到本地的images文件下
      request(imgSrc).pipe.(fs.createWriteStream('./images/' + imgfile));
    })
    
  })
})

相关文章

  • node.js路径处理方法以及绝对路径详解

    node.js路径处理方法以及绝对路径详解

    这篇文章介绍的是nodejs路径处理及绝对路径以及一个Node.js获取项目根目录的小技巧,这个内容非常实用。有需要的朋友们可以参考借鉴,下面来一起看看吧。
    2016-09-09
  • NodeJS简单实现WebSocket功能示例

    NodeJS简单实现WebSocket功能示例

    这篇文章主要介绍了NodeJS简单实现WebSocket功能,结合具体实例形式分析了nodejs实现WebSocket通信功能的客户端与服务器端相关操作技巧,需要的朋友可以参考下
    2018-02-02
  • Node.JS中快速扫描端口并发现局域网内的Web服务器地址(80)

    Node.JS中快速扫描端口并发现局域网内的Web服务器地址(80)

    在 Node.JS 中进行端口扫描还是比较方便的,一般会有广播和轮询两种方式。下文重点给大家介绍node.js 扫描端口并发现局域网内的web服务器地址的方法,一起看看吧
    2017-09-09
  • Node.js中创建和管理外部进程详解

    Node.js中创建和管理外部进程详解

    这篇文章主要介绍了Node.js中创建和管理外部进程详解,本文讲解了执行外部命令的方法、子进程相关内容等,需要的朋友可以参考下
    2014-08-08
  • node.js爬取中关村的在线电瓶车信息

    node.js爬取中关村的在线电瓶车信息

    这篇文章主要给大家介绍了关于利用node.js如何爬取中关村的在线电瓶车信息的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用node.js具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-11-11
  • Windows下nodejs安装及环境配置的实战步骤

    Windows下nodejs安装及环境配置的实战步骤

    最近换了一个电脑,因为要使用到NodeJS,我将我自己的安装步骤分享给大家,下面这篇文章主要给大家介绍了关于Windows下nodejs安装及环境配置的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2023-02-02
  • 从reflect metadata理解Nest实现原理

    从reflect metadata理解Nest实现原理

    这篇文章主要为大家介绍了从reflect metadata理解Nest实现原理示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-08-08
  • Nodejs为什么选择javascript为载体语言

    Nodejs为什么选择javascript为载体语言

    准备写一个NodeJS方面的系列文章,由浅入深,循序渐进,秉承的理念是重思想,多实践,勤能补拙,贵在坚持。本文首先来点基础知识的开篇吧。
    2015-01-01
  • node.js-v6新版安装具体步骤(分享)

    node.js-v6新版安装具体步骤(分享)

    下面小编就为大家带来一篇node.js-v6新版安装具体步骤(分享)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • Node.js定时任务之node-schedule使用详解

    Node.js定时任务之node-schedule使用详解

    这篇文章主要介绍了Node.js定时任务之node-schedule使用详解,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-08-08

最新评论