使用nodejs spider爬取图片及数据实现

 更新时间:2023年07月24日 08:54:04   作者:Besmall  
这篇文章主要为大家介绍了使用nodejs spider爬取图片及数据实现详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

nodejs如何爬取数据+图片

nodejs爬取数据

当我们在做一些网站的时候,就需要用到一些数据,但是网上有,一点点的复制又比较麻烦,这是我们的nodejs就可以帮我们完成想要的数据

废话就不多说了,我直接上你们想要的

今天工作不是太忙就爬取了一个天气的网站

效果图

核心模块

首先我们需要引入一些需要的核心模块

//引入核心模块
var http = require("http");
var fs = require("fs");
var cheerio = require("cheerio");

接下来我们需要想要爬取的网站的网址

const news = "http://www.weather.com.cn/weather/101010100.shtml";

创建服务

下面我们创建服务,用来接收数据和数据本地存储

//创建服务
var strHtml = "";
var results = [];
http.get(news,(res)=>{
    //触发接收事件data
    res.on("data",(chunk)=>{
        //接收数据,将数据一点点的追加到没我们定义的空字符串中
        strHtml+=chunk;
    });
    //触发接收完成时间end
    res.on("end",()=>{
        //cheerio类似于jQuery我们在用他之前必须载入文档用(load方法)
        var $ = cheerio.load(strHtml);
        var menew = [];
        //遍历查出来的文本数据
        $("#7d li").each((index,item)=>{
            //定义一个空数组,将数据内容存在里面
            menew.push({id:index,text:$(item).text()});
        });
        //转换JSON字符串
      var res = JSON.stringify(menew);
      //储存到本地
        fs.writeFile("./data1.json",res,(err)=>{
            if(!err) console.log("成功写入");
        })
    });
});

nodejs爬取图片

这是前几天爬取的百度图片首页的几张图

效果图

核心模块

首先我们也需要引入一些需要的核心模块

//引入核心模块
var http = require("http");
var https = require("https");
var fs = require("fs");
var cheerio = require("cheerio");

接下来我们需要想要爬取的网站的网址

const news = "http://image.baidu.com/";

首先我们需要将图片的URL地址获取下来

//创建服务
http.get(imgurl,(res)=>{
    //触发接收事件data
    var imageData = "";
    res.on("data",(chunk)=>{
        //接收数据,将数据一点点的追加到没我们定义的空字符串中
        imageData+=chunk;
    });
    //触发接收完成时间end
    res.on("end",()=>{
        //cheerio类似于jQuery我们在用他之前必须载入文档用(load方法)
        var $ = cheerio.load(imageData);
        var ImgData = [];
        //遍历查出来的文本数据
        $(".img_pic_wrap_layer img").each((index,item)=>{ 
            //定义一个空数组,将数据内容存在里面 
            ImgData.push($(item).attr("src"));
        });
        //循环调用图片函数
        for(var i =0 ; i < ImgData.length ; i ++){
            saveImage(ImgData[i]);
        }
    });
});

封装函数

然后我们要根据图片URL地址保存成图片,我将它封装了一个函数

//封装图片函数
function saveImage(imageUrl){
    //创建服务
    https.get(imageUrl,(res)=>{
        //二进制
        res.setEncoding("binary");
        var imageData="";
        //将图片加载到内存中
        res.on("data",(shuju)=>{
            imageData+=shuju;
        });
        //加载完保存图片
        res.on("end",()=>{
            //创建文件夹,如果有择不创建
            if(!fs.existsSync("./img")){
                fs.mkdirSync("./img");
            };
            //保存图片
            fs.writeFile("img/"+Math.random()+'.png',imageData,"binary",(err)=>{
                if(err) throw err;
                console.log("保存成功!!!")
            })
        })
    })
}

不是太懂的可以去GitHub上面看源码

源码地址

以上就是nodejs_spider爬取图片+数据的详细内容,更多关于nodejs_spider爬取图片+数据的资料请关注脚本之家其它相关文章!

相关文章

  • node.js的require()及基本用法

    node.js的require()及基本用法

    Node.js使用CommonJS模块格式,通过require语句加载模块,源码分析了require语句的内部运行机制,包括基本用法、Module构造函数、模块实例的require方法、模块的绝对路径、加载模块等,本文介绍node.js的require()及基本用法,感兴趣的朋友一起看看吧
    2025-02-02
  • 一文带你了解Node.js进程管理工具PM2

    一文带你了解Node.js进程管理工具PM2

    Node.js进程管理工具PM2是一个开源的工具,用于管理和监控Node.js应用程序的运行,它可以帮助您方便地启动、停止、重启和监视多个Node.js进程,并提供了许多有用的功能,所以本文就和大家一起了解一下PM2,需要的朋友可以参考下
    2023-07-07
  • node.js如何自定义实现一个EventEmitter

    node.js如何自定义实现一个EventEmitter

    我们了解到,Node采用了事件驱动机制,而EventEmitter就是Node实现事件驱动的基础,本文主要介绍了node.js自定义实现EventEmitter,感兴趣的可以了解一下
    2021-07-07
  • HTTP JSON接口模拟工具Interfake快速入门教程

    HTTP JSON接口模拟工具Interfake快速入门教程

    这篇文章主要为大家介绍了HTTP JSON接口模拟工具Interfake快速入门教程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06
  • 在Node.js中实现延迟和超时的方法

    在Node.js中实现延迟和超时的方法

    Node.js 是一个功能强大的 JavaScript 运行时,它提供了几种通过延迟和超时来控制执行流的方法,本指南将引导你完成在 Node.js 中实现延迟和超时的要点,确保你的应用程序平稳高效地运行,需要的朋友可以参考下
    2025-09-09
  • Restify中接入Socket.io报Error:Can’t set headers的错误解决

    Restify中接入Socket.io报Error:Can’t set headers的错误解决

    这篇文章主要给大家介绍了在Restify中接入Socket.io报Error:Can’t set headers的错误解决方法,文中介绍的非常详细,对大家具有一定的参考价值,需要的朋友们下面来一起看看吧。
    2017-03-03
  • node.js使用redis储存session的方法

    node.js使用redis储存session的方法

    这篇文章主要介绍了node.js使用redis储存session的方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-09-09
  • node.js安装及HbuilderX配置详解

    node.js安装及HbuilderX配置详解

    这篇文章主要介绍了node.js安装及HbuilderX配置的相关资料,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03
  • node.js实现pdf与图片互转代码示例

    node.js实现pdf与图片互转代码示例

    因工作需求,记录一次如何在Node中pdf与图片互转各种操作,这篇文章主要给大家介绍了关于node.js实现pdf与图片互转的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-04-04
  • 在Linux系统上升级Node.js遇到GLIBC依赖问题的多种解决方案

    在Linux系统上升级Node.js遇到GLIBC依赖问题的多种解决方案

    在现代 Web 开发和 DevOps 实践中,Node.js 是一个不可或缺的工具,在升级 Node.js 版本时,尤其是在较旧的 Linux 系统上,可能会遇到一些依赖库不兼容的问题,特别是与 GLIBC 和 GLIBCXX 相关的错误,本文将详细介绍如何解决这个依赖问题,需要的朋友可以参考下
    2025-01-01

最新评论