浅谈Node.js爬虫之网页请求模块

更新时间：2018年01月11日 13:59:48 作者：Sirk

本篇文章主要介绍了浅谈Node.js爬虫之网页请求模块，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

本文介绍了Node.js爬虫之网页请求模块，分享给大家，具体如下：

注：如您下载最新的nodegrass版本，由于部分方法已经更新，本文的例子已经不再适应，详细请查看开源地址中的例子。

一、为什么我要写这样一个模块？

源于笔者想使用Node.js写一个爬虫，虽然Node.js官方API提供的请求远程资源的方法已经非常简便，具体参考

http://nodejs.org/api/http.html 其中对于Http的请求提供了，http.get(options, callback)和http.request(options, callback)两个方法，

看方法便知，get方法用于get方式的请求，而request方法提供更多的参数，例如其它请求方式，请求主机的端口等等。对于Https的请求于Http类似。一个最简单的例子：

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});

对于以上代码，我们无非就是想请求远程主机，得到响应信息，例如响应状态，响应头，响应主体内容。其中get方法的第二个参数是一个回调函数，我们异步的获取响应信息，然后，在该回调函数中，res对象又监听data，on方法中第二个参数又是一个回调，而你得到d（你请求到的响应信息）后，很可能在对它进行操作的时候再次引入回调，一层层下去，最后就晕了。。。对于异步方式的编程，对于一些习惯同步方式写代码的同学是非常纠结的，当然国内外已经对此提供了一些非常优秀的同步类库，例如老赵的Wind.js......好像有点扯远了。其实，我们调用get最终要得到的无非就是响应信息，而不关心res.on这样的监听过程，因为太懒惰。不想每次都res.on('data',func)，于是诞生了今天我要介绍的nodegrass。

二、nodegrass请求资源，像Jquery的$.get(url,func)

一个最简单的例子：

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});

咋一看，和官方原来的get没啥区别，确实差不多=。=！只不过少了一层res.on('data',func)的事件监听回调而已。不管你信不信，反正我看上去感觉舒服多了，第二个参数同样是一个回调函数，其中的参数data是响应主体内容，status是响应状态，headers是响应头。得到响应内容，我们就可以对得到的资源提取任何我们感兴趣的信息啦。当然这个例子中，只是简单的打印的控制台而已。第三个参数是字符编码，目前Node.js不支持gbk，这里nodegrass内部引用了iconv-lite进行了处理，所以，如果你请求的网页编码是gbk的，例如百度。只需加上这个参数就行了。

那么对于https的请求呢？如果是官方api，你得引入https模块，但是请求的get方法等和http类似，于是nodegrass顺便把他们整合在一块了。看例子：

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});

nodegrass会根据url自动识别是http还是https，当然你的url必须得有，不能只写www.baidu.com/而需要http://www.baidu.com/。

对于post的请求，nodegrass提供了post方法，看例子：

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');

以上是新浪微博Auth2.0请求accessToken的一部分，其中使用nodegrass的post请求access_token的api。

post方法相比get方法多提供了headers请求头参数，options--post的数据，它们都是对象字面量的类型：

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };

三、利用nodegrass做代理服务器？……**

看例子：

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');

就这么简单，当然代理服务器还有复杂的多，这个不算是，但至少你访问本地8088端口，看到的是不是博客园的页面呢？

nodegrass的开源地址：https://github.com/scottkiss/nodegrass

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Node.js的特点和应用场景介绍
这篇文章主要介绍了Node.js的特点和应用场景介绍,本文讲解了Node.js的异步I/O、事件循环与回调函数、单线程、跨平台等特性,然后总结了它的使用场景,需要的朋友可以参考下
2014-11-11
使用Puppeteer实现页面遍历的示例代码
很多时候我们需要遍历我们的页面来检查页面是否存在问题，以更好的保证可用性和安全性，下面就来讲讲如何使用puppeteer来实现页面遍历的功能吧
2023-06-06
使用Node.js处理前端代码文件的编码问题
这篇文章主要介绍了使用Node.js处理前端代码文件的编码问题的方法,Node自带的相关类库处理编码方面的问题时还是比较得心应手的,需要的朋友可以参考下
2016-02-02
Node.js使用Express创建Web项目详细教程
如果需要入门使用node.js进行web开发，正在学习 nodejs web开发指南的和想快速了解node.js web开发模式的朋友，相信本文是有一定帮助意义的。
2017-03-03
node.js中的fs.fsyncSync方法使用说明
这篇文章主要介绍了node.js中的fs.fsyncSync方法使用说明,本文介绍了fs.fsyncSync的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
2014-12-12
Node工程的依赖包管理方式
在前端工程化中，JavaScript 依赖包管理是非常重要的一环。依赖包通常是项目所依赖的第三方库、工具和框架等资源，它们能够帮助我们减少重复开发、提高效率并且确保项目可以正确的运行。本文详细介绍了Node工程的依赖包管理方式，感兴趣的同学可以参考一下
2023-04-04
前端Electron新手入门教程详解
这篇文章主要介绍了Electron新手入门教程详解，首先围绕Electron框架的关键知识点进行详细讲解，然后对DEMO程序进行分析，让前端开发人员对使用Electron开发桌面应用程序有一个初步的了解。,需要的朋友可以参考下
2019-06-06
详解从NodeJS搭建中间层再谈前后端分离
这篇文章主要介绍了详解从NodeJS搭建中间层再谈前后端分离，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-11-11
快速查询nodejs版本信息的六种方法
Node.js是一款基于Chrome V8引擎的快速、轻量级的JavaScript运行时,随着应用程序规模越来越庞大,Node.js版本的更新也日益频繁,这篇文章旨在帮助开发者们快速查询Node.js版本信息,需要的朋友可以参考下
2023-11-11
Node.js操作mysql数据库增删改查
这篇文章主要介绍使用Node.js操作mysql数据库增删改查的相关资料,需要的朋友可以参考下
2016-03-03