nodejs制作小爬虫功能示例

 更新时间:2020年02月24日 10:44:11   作者:巴啦啦小能量  
这篇文章主要介绍了nodejs制作小爬虫功能,结合实例形式分析了node.js安装request、cheerio模块及请求发送、数据库操作等相关实现技巧,需要的朋友可以参考下

本文实例讲述了nodejs制作小爬虫功能。分享给大家供大家参考,具体如下:

1 安装nodejs

2 安装需要模块

npm install request cheerio 

3 新建js文件

4 引入

const request=require("request")
const cheerio=require("cheerio")

5 利用request模块发送请求

request('http://news.dgut.edu.cn/dgut/xydt/news_list.shtml',function(err,res){
  if(err)
  {
    console.log('请求出错');
  }
  else
  {
    var $ = cheerio.load(res.body, {decodeEntities: false});
    $('.listList').children('ul').children('li').each(function(){ //找到li元素对象然后通过each遍历
      var newsTitle = $(this).children('a').text(); //得到<a>标签的文字
      var newsTime= $(this).children('span').eq(1).text();//得到第二个<span>标签的文字
      var newsUrl= "http://news.dgut.edu.cn"+$(this).children('a').attr('href');//得到<a>标签的href的值
    item++;
    console.log("已爬取"+item+"条记录");
    });
  }
});

一个小爬虫案例就完了

附上完整代码

request('http://news.dgut.edu.cn/dgut/xydt/news_list.shtml',function(err,res){
  if(err)
  {
    console.log('请求出错');
  }
  else
  {
    var $ = cheerio.load(res.body, {decodeEntities: false});
    $('.listList').children('ul').children('li').each(function(){ //找到li元素对象然后通过each遍历
      var newsTitle = $(this).children('a').text(); //得到<a>标签的文字
      var newsTime= $(this).children('span').eq(1).text();//得到第二个<span>标签的文字
      var newsUrl= "http://news.dgut.edu.cn"+$(this).children('a').attr('href');//得到<a>标签的href的值
    item++;
    console.log("已爬取"+item+"条记录");
    });
  }
});

下面的带数据库

const request=require("request")
const cheerio=require("cheerio")
const mysql=require('mysql')
const db=mysql.createPool({host:'120.79.5554',user:'root',password:'root',database:'pachong'});
var item=0;
request('http://news.dgut.edu.cn/dgut/xydt/news_list.shtml',function(err,res){
  if(err)
  {
    console.log('请求出错');
  }
  else
  {
    var $ = cheerio.load(res.body, {decodeEntities: false});
    $('.listList').children('ul').children('li').each(function(){ //找到li元素对象然后通过each遍历
      var newsTitle = $(this).children('a').text(); //得到<a>标签的文字
      var newsTime= $(this).children('span').eq(1).text();//得到第二个<span>标签的文字
      var newsUrl= "http://news.dgut.edu.cn"+$(this).children('a').attr('href');//得到<a>标签的href的值
      console.log(newsTitle,newsTime,newsUrl)
      db.query(`INSERT INTO news (newsTitle, newsTime, newsUrl) VALUE('${newsTitle}', '${newsTime}','${newsUrl}')`,function(err,data){
      if(err)
      {
        console.log("数据库连接错误");
      }
    })
    item++;
    console.log("已爬取"+item+"条记录");
    });
  }
});

希望本文所述对大家node.js程序设计有所帮助。

相关文章

  • 在Node.js中发出HTTP请求的 5 种方法

    在Node.js中发出HTTP请求的 5 种方法

    学习如何在 Node.js 中发出 HTTP 请求可能会让人感到不知所措,因为有数十个可用的库,每个解决方案都声称比上一个更高效,在这篇文章中,我们将探讨在 Node.js 中发出 HTTP 请求的五种最流行的方法,并为每种方法提供说明,需要的朋友可以参考下
    2023-11-11
  • 利用nodejs监控文件变化并使用sftp上传到服务器

    利用nodejs监控文件变化并使用sftp上传到服务器

    这篇文章主要介绍了利用nodejs监控文件变化并使用sftp上传到服务器的方法,非常不错,具有参考借鉴价值,需要的朋友可以参考下
    2017-02-02
  • nodejs之请求路由概述

    nodejs之请求路由概述

    这篇文章主要介绍了nodejs的请求路由概述,需要的朋友可以参考下
    2014-07-07
  • node搭建后台的实现步骤

    node搭建后台的实现步骤

    本文介绍了使用Node.js搭建后台的实现步骤,文章详细阐述了每个步骤的实现过程,并给出了示例代码,对于想要了解如何使用Node.js搭建后台的读者具有一定的参考价值
    2023-08-08
  • node获取命令行中的参数详解

    node获取命令行中的参数详解

    这篇文章主要为大家介绍了node获取命令行中的参数详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • node模块机制与异步处理详解

    node模块机制与异步处理详解

    这篇文章主要介绍了node模块机制与异步处理详解的相关资料,需要的朋友可以参考下
    2016-03-03
  • node NPM库增强版globby Promise使用学习

    node NPM库增强版globby Promise使用学习

    这篇文章主要为大家介绍了node NPM库增强版globby Promise使用学习,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07
  • koa router 多文件引入的方法示例

    koa router 多文件引入的方法示例

    这篇文章主要介绍了koa router 多文件引入的方法示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-05-05
  • 使用Express处理请求和托管静态资源方式

    使用Express处理请求和托管静态资源方式

    这篇文章主要介绍了使用Express处理请求和托管静态资源方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-09-09
  • axios基本用法教程示例详解

    axios基本用法教程示例详解

    这篇文章主要为大家介绍了axios基本用法示例解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05

最新评论