Node.js 利用cheerio制作简单的网页爬虫示例

 更新时间:2018年03月01日 09:44:13   作者:Karuru  
本篇文章主要介绍了Node.js 利用cheerio制作简单的网页爬虫示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例,分享给大家,具有如下:

1. 目标

  1. 完成对网站的标题信息获取
  2. 将获取到的信息输出在一个新文件
  3. 工具: cheerio,使用npm下载npm install cheerio
  4. cheerio的API使用方法和jQuery的使用方法基本一致
  5. 如果熟练使用jQuery,那么cheerio将会很快上手

2. 代码部分

介绍: 获取segment fault页面的列表标题,将获取到的标题列表编号,最终输出到pageTitle.txt文件里

const https = require('https');
const fs = require('fs');
const cheerio = require('cheerio');
const url = 'https://segmentfault.com/';

https.get(url, (res) => {
  let html = '';
  res.on('data', (data) => {
    html += data;
  });
  res.on('end', () => {
    getPageTitle(html);
  });
}).on('error', () => {
  console.log('获取网页信息错误');
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $('.news__item-title');
  let data = [];
  let index = 0;
  let fileName = 'pageTitle.txt';
  for (let i = 0; i < chapters.length; i++) {
    let chapterTitle = $(chapters[i]).find('a').text().trim();
    index++;
    data.push(`\n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, 'utf8', (err) => {
    if (err) {
      console.log('fs文件系统创建新文件失败', err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Node.js 搭建后端服务器内置模块( http+url+querystring 的使用)

    Node.js 搭建后端服务器内置模块( http+url+querystring 的使用)

    这篇文章主要介绍了Node.js搭建后端服务器内置模块(http+url+querystring的使用),文章围绕主题展开详细的内容戒杀,具有一定的参考价值,需要的朋友可以参考一下
    2022-09-09
  • 如何通过node.js来写接口详解

    如何通过node.js来写接口详解

    最近研究了一下nodejs写接口,发现接口并不难写,这篇文章主要给大家介绍了关于如何通过node.js来写接口的相关资料,文中通过实例代码和图文介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • 详解nodejs异步I/O和事件循环

    详解nodejs异步I/O和事件循环

    本篇文章主要介绍了nodejs异步I/O和事件循环,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-06-06
  • 利用node.js如何创建子进程详解

    利用node.js如何创建子进程详解

    之前看多进程这一章节时发现这块东西挺多,写Process模块的时候也有提到,今天下午午休醒来静下心来好好的看了一遍,发现也不是太难理解。所以下面这篇文章主要给大家介绍了关于利用node.js如何创建子进程的相关资料,需要的朋友可以参考下。
    2017-12-12
  • NodeJs爬虫框架Spider基础使用教程

    NodeJs爬虫框架Spider基础使用教程

    这篇文章主要为大家介绍了NodeJs爬虫框架Spider基础使用教程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07
  • 详解如何在vscode里面调试js和node.js的方法步骤

    详解如何在vscode里面调试js和node.js的方法步骤

    这篇文章主要介绍了详解如何在vscode里面调试js和node.js的方法步骤,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-12-12
  • Nodejs+angularjs结合multiparty实现多图片上传的示例代码

    Nodejs+angularjs结合multiparty实现多图片上传的示例代码

    这篇文章主要介绍了Nodejs+angularjs结合multiparty实现多图片上传的示例代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • 详解nvm管理多版本node踩坑

    详解nvm管理多版本node踩坑

    这篇文章主要介绍了详解nvm管理多版本node踩坑,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • 详解一些适用于Node.js的命名约定

    详解一些适用于Node.js的命名约定

    这篇文章主要介绍了详解一些适用于Node.js的命名约定,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12
  • 利用Node.JS实现邮件发送功能

    利用Node.JS实现邮件发送功能

    其实利用Node.JS实现邮件发送这个功能很多人都写过了,但是网上有的代码不能用,版本较老,所以想着写下自己摸索的方法来实现。现在分享给大家,感兴趣的朋友们可以一起学习学习。
    2016-10-10

最新评论