基于node.js实现爬虫的讲解

 更新时间:2019年02月18日 16:49:09   作者:Inside_Zhang  
今天小编就为大家分享一篇关于基于node.js实现爬虫的讲解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

1. cheerio 与 request

  • request:模拟客户端行为,对页面进行请求
  • cheerio:对服务器端返回的页面进行解析;
var cheerio = require('cheerio');
var request = require('request');
var startUrl = 'http://www.baidu.com'
request(startUrl, function(err, response) {
  if (err) {
    console.log(err);
  }
  var $ = cheerio.load(response.body);
  var title = $('title').text();
  console.log(title);
}

2. 认识 cheerio

获取 element 位置

通过 class 属性进行匹配:

var $=cheerio.load('<div class="container"></div>'); 
$('.container')

取其链接:<a class="downbtn" href="http://mov.bn.netease.com/mobilev/2013/1/F/G/S8KTEF7FG.mp4" id="M8KTEKR84" target="_blank"></a>

$('a.downbtn').attr('href')

某一页面下的全部可链接:

var url = 
var $ = cheerio.load(data);
  $("a.downbtn").each(function(i, e) {
    console.log($(e).attr("href"));
  });
  console.log("done");
 } else {
   console.log("error");
 } 

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

  • 深入解读Node.js中的koa源码

    深入解读Node.js中的koa源码

    这篇文章主要介绍了深入解读Node.js中的koa源码,任何一个框架的出现都是为了解决问题,而Koa则是为了更方便的构建http服务而出现的。 可以简单的理解为一个HTTP服务的中间件框架。,需要的朋友可以参考下
    2019-06-06
  • node.js中的http.get方法使用说明

    node.js中的http.get方法使用说明

    这篇文章主要介绍了node.js中的http.get方法使用说明,本文介绍了http.get的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
    2014-12-12
  • Node.js重新刷新session过期时间的方法

    Node.js重新刷新session过期时间的方法

    在Node.js中,我们通常使用express-session这个包来使用和管理session,保存服务端和客户端浏览器之间的会话状态。那如何才能实现当用户刷新当前页面或者点击页面上的按钮时重新刷新session的过期时间呢,接下来通过本文一起学习吧
    2016-02-02
  • nodejs中内置模块fs,path常见的用法说明

    nodejs中内置模块fs,path常见的用法说明

    这篇文章主要介绍了nodejs中内置模块fs,path常见的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-11-11
  • Nodejs异步回调的优雅处理方法

    Nodejs异步回调的优雅处理方法

    这篇文章主要介绍了Nodejs异步回调的优雅处理方法,本文使用了ES6中的新特性,用一种十分优雅的方式解决了回调问题,需要的朋友可以参考下
    2014-09-09
  • Node.JS循环删除非空文件夹及子目录下的所有文件

    Node.JS循环删除非空文件夹及子目录下的所有文件

    这篇文章主要介绍了Node.JS循环删除非空文件夹及子目录下的所有文件及node.js递归删除非空文件夹的实例代码,需要的朋友可以参考下
    2018-03-03
  • npm全局环境变量配置详解

    npm全局环境变量配置详解

    这篇文章主要介绍了npm全局环境变量配置详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • 如何使用axios库在Node.js中进行代理请求(实践案例)

    如何使用axios库在Node.js中进行代理请求(实践案例)

    axios是一个强大的基于Promise的HTTP客户端,它在浏览器和Node.js环境中均可使用,本文将介绍如何充分利用axios库,在Node.js中进行代理请求的最佳实践,并通过一个实际案例来展示其应用,感兴趣的朋友一起看看吧
    2024-03-03
  • 详解Node.js中path模块的resolve()和join()方法的区别

    详解Node.js中path模块的resolve()和join()方法的区别

    这篇文章主要介绍了详解Node.js中path模块的resolve()和join()方法的区别,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-10-10
  • Node.js web 应用如何封装到Docker容器中

    Node.js web 应用如何封装到Docker容器中

    这篇文章主要介绍了Node.js web 应用如何封装到Docker容器中,帮助大家更好的学习node.js和使用docker容器,感兴趣的朋友可以了解下
    2020-09-09

最新评论