nodejs做个爬虫爬取腾讯动漫内容简单实现

 更新时间:2023年07月24日 09:20:31   作者:紫气东来_姜波  
这篇文章主要为大家介绍了nodejs做个爬虫爬取腾讯动漫内容简单实现,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

首先上package.json

{
  "name": "Spider",
  "version": "1.0.0",
  "description": "spider ",
  "main": "index.js",
  "dependencies": {
    "async": "^1.5.0",
    "cheerio": "^0.19.0",
    "eventproxy": "^0.3.4",
    "superagent": "^1.4.0"
  },
  "devDependencies": {},
  "scripts": {
    "test": "node index",
    "start": "node server.js"
  }
}

server.js

var http = require("http");
var cheerio = require("cheerio");
var fs = require('fs');
//Utility function that downloads a URL and invokes
//callback with the data.
function downloadPage(url, callback) {
    http.get(url, function(res) {
        var data = "";
        res.on('data', function(chunk) {
            data += chunk;
        });
        res.on("end", function() {
            callback(data);
        });
    }).on("error", function() {
        callback(null);
    });
}
function start() {
    var url = 'http://ac.qq.com/Comic/index/type/4/page/';
    var url2 = 'http://ac.qq.com/ComicView/index/id/549690/cid/1';
    var arr = [];
    for (var i = 1; i < 13; i++) {
        downloadPage(url + i, function(data) {
            if (data) {
                var $ = cheerio.load(data);
                $("div.ret-search-result > ul > li.ret-search-item").each(function(i, e) {
                    var json = {};
                    json.tags = [];
                    json.img = $(e).find('img').attr('data-original');
                    json.link = $(e).find('a.mod-cover-list-thumb').attr('href');
                    json.id = json.link.split('/').reverse()[0];
                    json.title = $(e).find('h3.ret-works-title > a').text();
                    json.author = $(e).find('p.ret-works-author').text();
                    json.popular = $(e).find('p.ret-works-tags> span > em').text();
                    json.description = $(e).find('p.ret-works-decs').text();
                    $(e).find('p.ret-works-tags>a').each(function(i, e) {
                        json.tags.push($(e).text());
                    });
                    downloadImg(json.img);
                    arr.push(json)
                    console.log("done");
                    // console.log(arr)
                    // fs.writeFileSync('./output.json', JSON.stringify(arr));
                    // });
                })
            }
        })
    }
}
function downloadImg(url) {
    console.log('string')
    http.get(url, function(res) {
        var imgData = "";
        res.setEncoding("binary"); //一定要设置response的编码为binary否则会下载下来的图片打不开
        res.on("data", function(chunk) {
            imgData += chunk;
        });
        res.on("end", function() {
            var d = new Date();
            fs.writeFile("./downImgs/" + Math.floor(Math.random() * 10000000) + '.jpg', imgData, "binary", function(err) {
                if (err) {
                    console.log(err);
                }
                console.log("down success");
            });
        });
    });
}
exports.start = start;

最后index.js

var server = require("./server");
server.start();

说明

  • 引入必须的模块,http, cheerio, fs
  • downloadPage函数接收URL,并在回调里处理数据。
  • start函数里,定义url数据源,这里用的是腾讯动漫.
  • for循环处理url数据内容,里面的downloadImg函数,即保存图片到本地。

以上就是nodejs做个爬虫爬取腾讯动漫内容简单实现的详细内容,更多关于nodejs爬虫爬取腾讯动漫的资料请关注脚本之家其它相关文章!

相关文章

  • Nodejs开发grpc的实例代码

    Nodejs开发grpc的实例代码

    Nodejs开发grpc包含静态和动态两种代码生成方式,静态代码生成需要提前通过.proto文件编译生成JS源码,而动态代码生成则是在运行时指定IDL文件位置,实时生成源码,两者各有优缺点,本文给大家介绍Nodejs开发grpc的实例代码,感兴趣的朋友一起看看吧
    2024-10-10
  • node.js中的fs.futimes方法使用说明

    node.js中的fs.futimes方法使用说明

    这篇文章主要介绍了node.js中的fs.futimes方法使用说明,本文介绍了fs.futimes方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
    2014-12-12
  • Node.js fs模块(文件模块)创建、删除目录(文件)读取写入文件流的方法

    Node.js fs模块(文件模块)创建、删除目录(文件)读取写入文件流的方法

    这篇文章主要介绍了Node.js fs模块(文件模块)创建、删除目录(文件)读取写入文件流的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • 利用npm 安装删除模块的方法

    利用npm 安装删除模块的方法

    今天小编就为大家分享一篇利用npm 安装删除模块的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • Node.js包管理器代理工具Verdaccio轻松创建管理本地npm包仓库

    Node.js包管理器代理工具Verdaccio轻松创建管理本地npm包仓库

    这篇文章主要为大家介绍了Node.js包管理器代理工具Verdaccio轻松创建管理本地npm包仓库的使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-10-10
  • Nodejs实现短信验证码功能

    Nodejs实现短信验证码功能

    使用Nodejs的开发者愈来越多,基于Nodejs的后台开发也多了起来,像短信验证码、短信群发、国际短信这些需求,完全可以采用第三方接口来实现,云片就提供了这样的接口
    2017-02-02
  • Nodejs实现WebSocket代码实例

    Nodejs实现WebSocket代码实例

    这篇文章主要介绍了Nodejs实现WebSocket代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • 详解离线安装npm包的几种方法

    详解离线安装npm包的几种方法

    这篇文章主要介绍了详解离线安装npm包的几种方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-11-11
  • 使用Node.js实现Word文档差异比较并高亮标注工具

    使用Node.js实现Word文档差异比较并高亮标注工具

    这篇文章主要介绍了一个使用Node.js编写的智能Word文档差异比对工具,通过解析、比较和生成Word文档,实现自动识别文本差异、智能标注修改痕迹并生成专业比对报告,感兴趣的小伙伴跟着小编一起来看看吧
    2025-04-04
  • node前端开发模板引擎Jade的入门

    node前端开发模板引擎Jade的入门

    这篇文章主要介绍了node前端开发模板引擎Jade的入门,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05

最新评论