Node.js实现的简易网页抓取功能示例

 更新时间:2014年12月05日 11:52:48   投稿:junjie  
这篇文章主要介绍了Node.js实现的简易网页抓取功能示例,本文使用了PhantomJS、node-phantomjs等库实现,需要的朋友可以参考下

现今,网页抓取已经是一种人所共知的技术了,然而依然存在着诸多复杂性, 简单的网页爬虫依然难以胜任Ajax轮训、XMLHttpRequest,WebSockets,Flash Sockets等各种复杂技术所开发出来的现代化网站。

我们以我们在Hubdoc这个项目上的基础需求为例,在这个项目中,我们从银行,公共事业和信用卡公司的网站上抓取帐单金额,到期日期,账户号码,以及最重要的:近期账单的pdf。对于这个项目,我一开始采用了很简单的方案(暂时并没有使用我们正在评估的昂贵的商业化产品)——我以前在MessageLab/Symantec使用Perl做过的一个简单的爬虫项目。但是结果很不顺利,垃圾邮件发送者所制作的网站要比银行和公共事业公司的网站简单的多得多。

那么如何解决这个问题呢?我们主要从使用Mikea开发的优秀 request库开始。在浏览器中发出请求,并在Network窗口中查看到底发送出去了什么请求头,然后把这些请求头拷贝到代码里。这个过程很简单。仅仅是跟踪从登陆开始,到下载Pdf文件结束的这个过程,然后模拟这个过程的所有的请求而已。为了使类似的事情处理起来变得容易,并且能让网络开发者们更加合理地写爬虫程序,我把从HTML上取到结果的方把导出到jQuery中(使用轻量级 cheerio库),这使得相似的工作变得简单,也使利用CSS选择子选取一个页面中的元素变得较为简单。整个过程被包装进一个框架,而这个框架也可以做额外的工作,例如从数据库中拾取证书,加载个体机器人,和UI通过socket.io沟通。

对于一些web站点来说这个是有效的,但这仅仅是JS脚本,而不是我那个被这些公司放在他们站点上的node.js的code。他们对遗留下来的问题,针对复杂性就行分层,使得你非常难去弄明白该做什么来得到登录的信息点。对于一些站点我尝试了几天通过与request()库结合来获取,但仍是徒然。

在几近崩溃后,我发现了node-phantomjs,这个库可以让我从node中控制phantomjs headless webkit浏览器(译者注:这个我没想到一个对应的名词,headless这里的意思是渲染页面在后台完成,无需显示设备)。这看起来是一种简单的解决方案,但是还有一些phantomjs无法回避的问题需要解决:

1.PhantomJS只能告诉你页面是否完成了加载,但是你无法确定这个过程中是否存在通过JavaScript或者meta标签实现的重定向(redirect)。特别是JavaScript使用setTimeout()来延迟调用的时候。

2.PhantomJS为你提供了一个页面加载开始(pageLoadStarted)的钩子,允许你处理上面提到的问题,但是这个机能只能在你确定要加载的页面数,在每个页面加载完成时减少这个数字,并且为可能的超时提供处理(因为这种事情并不总是会发生),这样当你的数字减少为0,就可以调用你的回调函数了。这种方式可以工作,但是总让人觉得有点像是黑客手段。

3.PhantomJS每抓取一个页面需要一个完整独立的进程,因为如果不这样,无法分离每个页面之间的cookies。如果你是用同一个phantomjs进程,已经登录的页面中的session会被发送到另一个页面中。

4.无法使用PhantomJS下载资源 - 你只能将页面保存为png或者pdf。这很有用,但是这意味着我们需要求助于request()来下载pdf。

5.由于上述的原因,我必须找到一个方法来将cookie从PhantomJS的session中分发到request()的session库中去。只需要将document.cookie的字符串分发过去,解析它,然后将其注入到request()的cookie jar中去。

6.将变量注入到浏览器session中并不是件容易的事情。要这么做我需要创建一个字符串来建立一个Javascript函数。

复制代码 代码如下:

Robot.prototype.add_page_data = function (page, name, data) {
 page.evaluate(
 "function () { var " + name + " = window." + name + " = " + JSON.stringify(data) + "}"
 );
}

7.一些网站总是充斥着console.log()之类的代码,也需要将他们重新定义,输出到我们希望的位置。为了完成这个,我这么做:
复制代码 代码如下:

if (!console.log) {
    var iframe = document.createElement("iframe");
    document.body.appendChild(iframe);
    console = window.frames[0].console;
}

8.一些网站总是充斥着console.log()之类的代码,也需要将他们重新定义,输出到我们希望的位置。为了完成这个,我这么做:

复制代码 代码如下:

if (!console.log) {
    var iframe = document.createElement("iframe");
    document.body.appendChild(iframe);
    console = window.frames[0].console;
}

9.告诉浏览器我点击了a标签也是件很不容易的事情,为了完成这些事情,我加入了以下的代码:
复制代码 代码如下:

var clickElement = window.clickElement = function (id){
    var a = document.getElementById(id);
    var e = document.createEvent("MouseEvents");
    e.initMouseEvent("click", true, true, window, 0, 0, 0, 0, 0, false, false, false, false, 0, null);
    a.dispatchEvent(e);
 };

10.我还需要限制浏览器session的最大并发量,从而保障我们不会爆掉服务器。虽然这么说,可是这个限制要比昂贵的商业解决方案所能提供的高很多。(译者注:即商业解决方案的并发量比这个解决方案大)

所有的工作结束后,我就有一个比较体面的 PhantomJS + request 的爬虫解决方案。必须使用 PhantomJS 登录后才可以返回去 request() 请求,它将使用在 PhantomJS 中设置的 Cookie 来验证登录的会话。这是一个巨大的胜利,因为我们可以使用 request() 的流来下载 pdf文件。

整个的计划就是为了让 Web 开发者相对容易的理解如何使用 jQuery 和 CSS 选择器来创建不同 Web 网站的爬虫,我还没有成功证明这个思路可行,但相信很快会了。

相关文章

  • npm与nrm两种方式查看源和切换镜像详解

    npm与nrm两种方式查看源和切换镜像详解

    nrm(npm registry manager )是npm的镜像源管理工具,它可以快速在让你在本地源之间切换,下面这篇文章主要给大家介绍了关于npm与nrm两种方式查看源和切换镜像的相关资料,需要的朋友可以参考下
    2023-02-02
  • Node.js进程管理之子进程详解

    Node.js进程管理之子进程详解

    本文详细讲解了Node.js进程管理之子进程,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-07-07
  • 详解如何使用node.js的开发框架express创建一个web应用

    详解如何使用node.js的开发框架express创建一个web应用

    这篇文章主要介绍了详解如何使用node.js的开发框架express创建一个web应用,网上各种搜索后,整理了下快速搭建express框架的步骤。非常具有实用价值,需要的朋友可以参考下
    2018-12-12
  • 利用forever和pm2部署node.js项目过程

    利用forever和pm2部署node.js项目过程

    这篇文章主要给大家介绍了如何利用forever和pm2部署node.js项目的相关资料,文中给出了详细的介绍和示例代码供大家参考学习,相信对大家的学习或者工作具有一定的学习价值,需要的朋友们下面随着小编一起来看看吧。
    2017-05-05
  • NodeJs实现简单的爬虫功能案例分析

    NodeJs实现简单的爬虫功能案例分析

    爬虫,是一种按照一定的规则,自动地抓取网页信息的程序或者脚本。这篇文章通过一个案例给大家分享NodeJs实现简单的爬虫功能,感兴趣的朋友一起看看吧
    2018-12-12
  • node版本冲突问题的解决方案

    node版本冲突问题的解决方案

    因为项目用的依赖和要运行环境的node.js版本起了冲突,下面这篇文章主要给大家介绍了关于node版本冲突问题的解决方案,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-06-06
  • node.js命令行教程图文详解

    node.js命令行教程图文详解

    本文先介绍原生的node.js实现命令行交互,了解原生的api,然后通过commander.js和inquirer.js实现一个完整的交互命令行工具。感兴趣的朋友跟随小编一起看看吧
    2019-05-05
  • Node.js中处理特殊字符的文件名解决方案

    Node.js中处理特殊字符的文件名解决方案

    在Node.js中,通过path模块提供的basename方法,我们可以轻松地从文件路径中提取文件名,在这篇文章中,我们将介绍一种安全稳妥的方法,结合使用dirname和长度计算,以处理特殊字符的文件名,感兴趣的朋友跟随小编一起看看吧
    2024-03-03
  • 详解利用nodejs对本地json文件进行增删改查

    详解利用nodejs对本地json文件进行增删改查

    这篇文章主要介绍了详解利用nodejs对本地json文件进行增删改查,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-09-09
  • node.js中的fs.write方法使用说明

    node.js中的fs.write方法使用说明

    这篇文章主要介绍了node.js中的fs.write方法使用说明,本文介绍了fs.write的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
    2014-12-12

最新评论