nodejs通过phantomjs实现下载网页

 更新时间:2015年05月04日 09:04:27   投稿:hebedich  
这篇文章主要介绍了nodejs通过phantomjs实现下载网页的方法,有需要的小伙伴可以参考下。

功能其实很见简单,通过 phantomjs.exe 采集 url 加载的资源,通过子进程的方式,启动nodejs 加载所有的资源,对于css的资源,匹配css内容,下载里面的url资源

当然功能还是很简单的,在响应式设计和异步加载的情况下,还是有很多资源没有能够下载,需要根据实际情况处理下

 首先当然是下载 nodejs 和 phantomjs

下面是 phantomjs.exe 执行的 down.js

var page = require('webpage').create(),
  system = require('system');
var spawn = require("child_process").spawn

if (system.args.length === 1) {
  console.log('Usage: netsniff.js <some URL>');
  phantom.exit(1);
} else {
  var urls = [];
  page.address = system.args[1];
  page.onResourceReceived = function (res) {
    if (res.stage === 'start') {
      urls.push(res.url);
    }
  };
  page.open(page.address, function (status) {
    var har;
    if (status !== 'success') {
      console.log('FAIL to load the address');
      phantom.exit(1);
    } else {
      console.log('down resource ' + urls.length + ' urls.');
      var child = spawn("node", ["--harmony", "downHtml.js", urls.join(',')])
      child.stdout.on("data", function (data) {
       console.log(data);
      })
      child.stderr.on("data", function (data) {
       console.log(data);
      })
      child.on("exit", function (code) {
       phantom.exit();
      })      
    }
  });
}

下面是对应的node运行的 downHtml.js

"use strict";
var fs = require('fs');
var http = require('http');
var path = require('path');
var r_url = require('url');

var dirCache = {};//缓存减少判断
function makedir (pathStr, callback) {
  if (dirCache[pathStr] == 1) {
    callback();
  } else {
    fs.exists(pathStr, function (exists) {
      if (exists == true) {
        dirCache[pathStr] == 1;
        callback();
      } else {
        makedir(path.dirname(pathStr), function () {
          fs.mkdir(pathStr, function () {
            dirCache[pathStr] == 1;
            callback();
          })
        });
      }
    })
  }
};

var reg = /[:,]\s*url\(['"]?.*?(\1)\)/g
var reg2 = /\((['"]?)(.*?)(\1)\)/
var isDownMap = {};
var downImgFromCss = function (URL) {
  http.get(URL, function(res) {
    //console.log(path.resolve(process.cwd(), 'index.min.css'))
    //res.pipe(fs.createWriteStream(path.resolve(process.cwd(), 'index.min.css')));
    var body = "";
    res.setEncoding('utf8');
    res.on('data', function (chunk) {
      body += chunk;
    });
    res.on('end', function () {
      var match = body.match(reg);
      for (var i = 0, len = match.length; i < len; i++){
        var m = match[i].match(reg2);
        if (m && m[2]) {
          var url = m[2];
          let imgUrl = r_url.resolve(URL, url);
          if (!isDownMap[imgUrl]) {
            var uo = r_url.parse(imgUrl);
            let filepath = CWD + '/' + uo.hostname + uo.pathname;
            makedir(path.dirname(filepath), function () {
              http.get(imgUrl, function (res) {
                res.pipe(fs.createWriteStream(filepath));
              })
            })
            isDownMap[imgUrl] = 1;
          }
        }
      }
    });
  });
}

var URLS = process.argv[2].split(',');
var CWD = process.cwd();
//下载资源
URLS.forEach(function (URL) {
  var uo = r_url.parse(URL);
  var filepath;
  if (uo.pathname == '/' || uo.pathname == '') {
    filepath = CWD + '/' + uo.hostname + '/index.html';
  } else {
    filepath = CWD + '/' + uo.hostname + uo.pathname;
  }
  makedir(path.dirname(filepath), function () {
    http.get(URL, function (res) {
      if (URL.indexOf('.css') != -1 || (res.headers["content-type"] && res.headers["content-type"].indexOf('text/css')!= -1)) {
        console.log('down images form css file:' + URL + '.');
        downImgFromCss(URL);
      }
      res.pipe(fs.createWriteStream(filepath));
    })
  });
});

down.js downHtml.js 放在同一个文件夹下 通过下列 cmd 运行

D:\phantomjs-2.0.0-windows\bin\phantomjs.exe down.js http://www.youku.com/

以上所述就是本文的全部内容了,希望大家能够喜欢。

相关文章

  • node后端与Vue前端跨域处理方法详解

    node后端与Vue前端跨域处理方法详解

    从目前我了解的情况来看,前后端跨域使用的方式有很多种,这里记录我使用最顺手的一种,即在后端使用cors跨域,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • koa2服务配置SSL的实现方法

    koa2服务配置SSL的实现方法

    这篇文章主要介绍了koa2服务配置SSL的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-05-05
  • 可能是全网最详细的nodejs卸载和安装教程

    可能是全网最详细的nodejs卸载和安装教程

    npm的中文意思为"node包管理器",是Node.js平台的默认包管理工具,会随着Nodejs一起安装,npm管理对应node.js的第三方插件,下面这篇文章主要给大家介绍了关于nodejs卸载和安装教程的相关资料,这可能全网最详细的教程了,需要的朋友可以参考下
    2023-05-05
  • 详细分析Node.js 模块系统

    详细分析Node.js 模块系统

    这篇文章主要介绍了Node.js 模块系统的的相关资料,文中讲解非常详细,供大家参考和学习,感兴趣的朋友可以了解下
    2020-06-06
  • 详解Node.js读写中文内容文件操作

    详解Node.js读写中文内容文件操作

    在本篇文章中我们给大家分享了关于Node.js读写中文内容文件操作的相关知识点内容,有需要的朋友们可以学习下。
    2018-10-10
  • 如何构建一个 NodeJS 影院微服务并使用 Docker 部署

    如何构建一个 NodeJS 影院微服务并使用 Docker 部署

    微服务是一个单独的自包含单元,与其他许多单元一起构成一个大型应用程序,这篇文章主要介绍了如何构建一个NodeJS影院微服务并使用Docker部署,在这个系列中,将构建一个 NodeJS 微服务,并使用 Docker Swarm 集群进行部署,需要的朋友可以参考下
    2023-08-08
  • 关于NodeJs和JAVA建立socket连接方式

    关于NodeJs和JAVA建立socket连接方式

    这篇文章主要介绍了关于NodeJs和JAVA建立socket连接方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • 编译打包nodejs服务代码如何部署到服务器

    编译打包nodejs服务代码如何部署到服务器

    这篇文章主要介绍了编译打包nodejs服务代码如何部署到服务器问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-10-10
  • windows 下安装nodejs 环境变量设置

    windows 下安装nodejs 环境变量设置

    windows 下安装nodejs 了,也安装了npm, 但是有时候切不能直接用request(‘ws’)这一类的东西.我觉得是确实环境变量或其他设置有问题,能否给个完整的设置方案:
    2017-02-02
  • 用NodeJS实现批量查询地理位置的经纬度接口

    用NodeJS实现批量查询地理位置的经纬度接口

    最近要实现一个显示各个城市信息的功能,后台一看包含一堆城市的excel,发现不仅有每个省的直辖市,还有二三线等的城市,数量还不少,一个个去查还挺浪费时间的,那为什么不写个脚本去实现批量查询呢。
    2016-08-08

最新评论