node.js抓取并分析网页内容有无特殊内容的js文件

更新时间：2015年11月17日 10:40:01 作者：平凡公子

nodejs获取网页内容绑定data事件，获取到的数据会分几次相应，如果想全局内容匹配，需要等待请求结束，在end结束事件里把累积起来的全局数据进行操作，本文给大家介绍node.js抓取并分析网页内容有无特殊内容的js文件，需要的朋友参考下

nodejs获取网页内容绑定data事件，获取到的数据会分几次相应，如果想全局内容匹配，需要等待请求结束，在end结束事件里把累积起来的全局数据进行操作！

举个例子，比如要在页面中找有没有www.baidu.com，不多说了，直接放代码：

//引入模块
var http = require("http"),
fs = require('fs'),
url = require('url');
//写入文件，把结果写入不同的文件
var writeRes = function(p, r) {
   fs.appendFile(p , r, function(err) {
    if(err)
       console.log(err);
    else
       console.log(r);
  });
},
//发请求，并验证内容，把结果写入文件
postHttp = function(arr, num) {
   console.log('第'+num+"条！")
   var a = arr[num].split(" - ");
   if(!a[0] || !a[1]) {
     return;
   }
   var address = url.parse(a[1]),
   options = {
     host : address.host,
     path: address.path,
     hostname : address.hostname,
     method: 'GET',
     headers: {
      'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
    }
   }
   var req = http.request(options, function(res) {
     if (res.statusCode == 200) {
        res.setEncoding('UTF-8');
        var data = '';
        res.on('data', function (rd) {  
          data += rd;
        });
        res.on('end', function(q) {
          if(!~data.indexOf("www.baidu.com")) {
             return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');            
          } else {
             return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");
          }
        })
     } else {
        writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');
     }
   });
   req.on('error', function(e) {
     writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');
   })
   req.end();
},
//读取文件，获取需要抓取的页面
openFile = function(path, coding) {
   fs.readFile(path, coding, function(err, data) {
     var res = data.split("\n");  
     for (var i = 0, rl = res.length; i < rl; i++) {
        if(!res[i])
          continue;
        postHttp(res, i);  
     };  
   })
};
openFile('./sites.log', 'utf-8');

上面代码大家可以看的懂吧，有哪里不清楚的朋友欢迎给我留言，具体的还要靠大家发挥应用到实践当中。

下面给大家介绍Nodejs对于网页抓取的能力

首先PHP。先说优势：网上抓取和解析html的框架一抓一大把，各种工具直接拿来用就行了，比较省心。缺点：首先速度/效率很成问题，有一次下载电影海报的时候，由于是crontab定期执行，也没做优化，开的php进程太多，直接把内存撑爆了。然后语法方面也很拖沓，各种关键字符号太多，不够简洁，给人一种没有认真设计过的感觉，写起来很麻烦。

Node.js。优点是效率、效率还是效率，由于网络是异步的，所以基本如同几百个进程并发一样强大，内存和CPU占用非常小，如果没有对抓取来的数据进行复杂的运算加工，那么系统的瓶颈基本就在带宽和写入MySQL等数据库的I/O速度。当然，优点的反面也是缺点，异步网络代表你需要callback，这时候如果业务需求是线性了，比如必须等待上一个页面抓取完成后，拿到数据，才能进行下一个页面的抓取，甚至多层的依赖关系，那就会出现可怕的多层callback！基本这时候，代码结构和逻辑就会一团乱麻。当然可以用Step等流程控制工具解决这些问题。

最后说Python。如果你对效率没有极端的要求，那么推荐用Python！首先，Python的语法很简洁，同样的语句，可以少敲很多次键盘。然后，Python非常适合做数据的处理，比如函数参数的打包解包，列表解析，矩阵处理，非常方便。

您可能感兴趣的文章:

node实现shell命令管理工具及commander.js学习
这篇文章主要为大家介绍了node实现shell命令管理工具及commander.js学习，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-09-09
使用Node.js创建HTTP服务器并实现公网访问本地Server的步骤
Node.js含有一系列内置模块,使得程序可以脱离 Apache HTTP Server 或 IIS,作为独立服务器运,下面将介绍如何简单几步实现远程公共网络下访问windwos node.js的服务端,感兴趣的朋友一起看看吧
2023-11-11
详解nodejs 文本操作模块-fs模块（一）
这篇文章主要介绍了详解nodejs 文本操作模块-fs模块（一）,本篇文章详细的介绍了文件及目录的读写操作，有兴趣的可以了解一下。
2016-12-12
Node.js实现用户身份验证和授权的示例代码
在web开发中,我们常常需要对一些敏感的url进行访问权限控制,本文主要介绍了Node.js实现用户身份验证和授权的示例代码,具有一定的参考价值,感兴趣的了解一下
2024-02-02
node.js中的fs.stat方法使用说明
这篇文章主要介绍了node.js中的fs.stat方法使用说明,本文介绍了fs.stat的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
2014-12-12
Node.js基于node-schedule实现定时任务的操作步骤
实际工作中,可能会遇到定时清除某个文件夹内容,定时发送消息或发送邮件给指定用户,定时导出某些数据等,node-schedule是一个非常不错的npm包,可以帮助我们快速的创建和管理定时任务,所以本文介绍了Node.js基于node-schedule实现定时任务的操作步骤,需要的朋友可以参考下
2024-09-09
在Express中提供静态文件的实现方法
这篇文章主要介绍了在Express中提供静态文件的实现方法，将包含静态资源的目录的名称传递给 express.static 中间件函数，以便开始直接提供这些文件，感兴趣的可以了解一下
2019-10-10
基于Alpine Linux构建前端node-web镜像步骤详解
这篇文章主要为大家介绍了基于Alpine Linux构建前端node-web镜像步骤详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-11-11
nodeJs爬虫获取数据简单实现代码
这篇文章主要为大家详细介绍了nodeJs爬虫获取数据简单实现代码，感兴趣的小伙伴们可以参考一下
2016-03-03
如何让Nodejs支持H5 History模式(connect-history-api-fallback源码分析)
这篇文章主要介绍了如何让Nodejs支持H5 History模式(connect-history-api-fallback源码分析)，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2019-05-05

node.js抓取并分析网页内容有无特殊内容的js文件

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具