使用nodejs spider爬取图片及数据实现

 更新时间:2023年07月24日 08:54:04   作者:Besmall  
这篇文章主要为大家介绍了使用nodejs spider爬取图片及数据实现详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

nodejs如何爬取数据+图片

nodejs爬取数据

当我们在做一些网站的时候,就需要用到一些数据,但是网上有,一点点的复制又比较麻烦,这是我们的nodejs就可以帮我们完成想要的数据

废话就不多说了,我直接上你们想要的

今天工作不是太忙就爬取了一个天气的网站

效果图

核心模块

首先我们需要引入一些需要的核心模块

//引入核心模块
var http = require("http");
var fs = require("fs");
var cheerio = require("cheerio");

接下来我们需要想要爬取的网站的网址

const news = "http://www.weather.com.cn/weather/101010100.shtml";

创建服务

下面我们创建服务,用来接收数据和数据本地存储

//创建服务
var strHtml = "";
var results = [];
http.get(news,(res)=>{
    //触发接收事件data
    res.on("data",(chunk)=>{
        //接收数据,将数据一点点的追加到没我们定义的空字符串中
        strHtml+=chunk;
    });
    //触发接收完成时间end
    res.on("end",()=>{
        //cheerio类似于jQuery我们在用他之前必须载入文档用(load方法)
        var $ = cheerio.load(strHtml);
        var menew = [];
        //遍历查出来的文本数据
        $("#7d li").each((index,item)=>{
            //定义一个空数组,将数据内容存在里面
            menew.push({id:index,text:$(item).text()});
        });
        //转换JSON字符串
      var res = JSON.stringify(menew);
      //储存到本地
        fs.writeFile("./data1.json",res,(err)=>{
            if(!err) console.log("成功写入");
        })
    });
});

nodejs爬取图片

这是前几天爬取的百度图片首页的几张图

效果图

核心模块

首先我们也需要引入一些需要的核心模块

//引入核心模块
var http = require("http");
var https = require("https");
var fs = require("fs");
var cheerio = require("cheerio");

接下来我们需要想要爬取的网站的网址

const news = "http://image.baidu.com/";

首先我们需要将图片的URL地址获取下来

//创建服务
http.get(imgurl,(res)=>{
    //触发接收事件data
    var imageData = "";
    res.on("data",(chunk)=>{
        //接收数据,将数据一点点的追加到没我们定义的空字符串中
        imageData+=chunk;
    });
    //触发接收完成时间end
    res.on("end",()=>{
        //cheerio类似于jQuery我们在用他之前必须载入文档用(load方法)
        var $ = cheerio.load(imageData);
        var ImgData = [];
        //遍历查出来的文本数据
        $(".img_pic_wrap_layer img").each((index,item)=>{ 
            //定义一个空数组,将数据内容存在里面 
            ImgData.push($(item).attr("src"));
        });
        //循环调用图片函数
        for(var i =0 ; i < ImgData.length ; i ++){
            saveImage(ImgData[i]);
        }
    });
});

封装函数

然后我们要根据图片URL地址保存成图片,我将它封装了一个函数

//封装图片函数
function saveImage(imageUrl){
    //创建服务
    https.get(imageUrl,(res)=>{
        //二进制
        res.setEncoding("binary");
        var imageData="";
        //将图片加载到内存中
        res.on("data",(shuju)=>{
            imageData+=shuju;
        });
        //加载完保存图片
        res.on("end",()=>{
            //创建文件夹,如果有择不创建
            if(!fs.existsSync("./img")){
                fs.mkdirSync("./img");
            };
            //保存图片
            fs.writeFile("img/"+Math.random()+'.png',imageData,"binary",(err)=>{
                if(err) throw err;
                console.log("保存成功!!!")
            })
        })
    })
}

不是太懂的可以去GitHub上面看源码

源码地址

以上就是nodejs_spider爬取图片+数据的详细内容,更多关于nodejs_spider爬取图片+数据的资料请关注脚本之家其它相关文章!

相关文章

  • nodeJs的安装与npm全局环境变量的配置详解

    nodeJs的安装与npm全局环境变量的配置详解

    这篇文章主要介绍了nodeJs的安装与npm全局环境变量的配置详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-01-01
  • 如何构建一个 NodeJS 影院微服务并使用 Docker 部署

    如何构建一个 NodeJS 影院微服务并使用 Docker 部署

    微服务是一个单独的自包含单元,与其他许多单元一起构成一个大型应用程序,这篇文章主要介绍了如何构建一个NodeJS影院微服务并使用Docker部署,在这个系列中,将构建一个 NodeJS 微服务,并使用 Docker Swarm 集群进行部署,需要的朋友可以参考下
    2023-08-08
  • 使用Node.js实现base64和png文件相互转换的方法

    使用Node.js实现base64和png文件相互转换的方法

    这篇文章主要介绍了使用Node.js实现base64和png文件相互转换的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-03-03
  • node.js实现微信JS-API封装接口的示例代码

    node.js实现微信JS-API封装接口的示例代码

    这篇文章主要介绍了node.js实现微信JS-API封装接口的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • 纯异步nodejs文件夹(目录)复制功能

    纯异步nodejs文件夹(目录)复制功能

    这篇文章主要介绍了纯异步nodejs文件夹(目录)复制功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • PHP和NodeJs开发的应用如何共用Session

    PHP和NodeJs开发的应用如何共用Session

    这篇文章主要介绍了PHP和NodeJs开发的应用如何共用Session的相关资料及思路,需要的朋友可以参考下
    2015-04-04
  • NodeJs Express中间件使用流程解析

    NodeJs Express中间件使用流程解析

    Express中间件本质上就是一个function处理函数,多个中间件之间,共享同一份req和res,我们就可以在上游的中间件中统一为req或者res对象添加自定义的属性或方法,供下游的中间件或路由进行使用,非常方便
    2023-01-01
  • Express URL跳转(重定向)的实现方法

    Express URL跳转(重定向)的实现方法

    Express是一个基于Node.js实现的Web框架,其响应HTTP请求的response对象中有两个用于URL跳转方法res.location()和res.redirect(),使用它们可以实现URL的301或302重定向。
    2017-04-04
  • Grunt针对静态文件的压缩,版本控制打包的实例讲解

    Grunt针对静态文件的压缩,版本控制打包的实例讲解

    下面小编就为大家带来一篇Grunt针对静态文件的压缩,版本控制打包的实例讲解。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • 从零学习node.js之模块规范(一)

    从零学习node.js之模块规范(一)

    Node.js是一个基于谷歌浏览器JavaScript执行环境建立的一个平台,让JavaScript可以脱离客户端浏览器运行,让 JavaScript具有服务器语言的能力。从本文开始我们进行学习node.js,这篇文章主要介绍的是node.js中模块规范的相关资料,需要的朋友可以参考下。
    2017-02-02

最新评论