Node.js 利用cheerio制作简单的网页爬虫示例

更新时间：2018年03月01日 09:44:13 作者：Karuru

本篇文章主要介绍了Node.js 利用cheerio制作简单的网页爬虫示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例，分享给大家，具有如下：

1. 目标

完成对网站的标题信息获取
将获取到的信息输出在一个新文件
工具: cheerio，使用npm下载npm install cheerio
cheerio的API使用方法和jQuery的使用方法基本一致
如果熟练使用jQuery，那么cheerio将会很快上手

2. 代码部分

介绍: 获取segment fault页面的列表标题，将获取到的标题列表编号，最终输出到pageTitle.txt文件里

const https = require('https');
const fs = require('fs');
const cheerio = require('cheerio');
const url = 'https://segmentfault.com/';

https.get(url, (res) => {
  let html = '';
  res.on('data', (data) => {
    html += data;
  });
  res.on('end', () => {
    getPageTitle(html);
  });
}).on('error', () => {
  console.log('获取网页信息错误');
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $('.news__item-title');
  let data = [];
  let index = 0;
  let fileName = 'pageTitle.txt';
  for (let i = 0; i < chapters.length; i++) {
    let chapterTitle = $(chapters[i]).find('a').text().trim();
    index++;
    data.push(`\n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, 'utf8', (err) => {
    if (err) {
      console.log('fs文件系统创建新文件失败', err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

深入解析Nodejs中的大文件读写
这篇文章主要介绍了深入解析Nodejs中的大文件读写，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-09-09
nodejs清空/删除指定文件夹下面所有文件或文件夹的方法示例
这篇文章主要介绍了nodejs清空/删除指定文件夹下面所有文件或文件夹的方法,通过两个具体案例形式分析了node.js同步删除文件/文件夹,以及异步删除文件/文件夹的相关实现技巧,涉及递归遍历与文件判断、回调等相关操作,需要的朋友可以参考下
2023-04-04
Linux下为Node.js程序配置MySQL或Oracle数据库的方法
这篇文章主要介绍了Linux下为Node.js程序配置MySQL或Oracle数据库的方法,这里默认已经装配好了Node环境然后我们利用npm包管理工具来进行配置,需要的朋友可以参考下
2016-03-03
NodeJS学习笔记之MongoDB模块
nodejs是个强大的平台，有基本功能，而且可以挂很多模块。我们现在需要和mongodb连接的驱动，就类似比如mysql的java驱动一样。nodejs有好几个mongodb的第三方驱动。和jdbc不一样，没有标准。所以需要到驱动的网站上去了解学习怎么使用它访问mongodb。
2015-01-01
node.js使用免费的阿里云ip查询获取ip所在地【推荐】
这篇文章主要介绍了node.js使用免费的阿里云ip查询获取ip所在地的相关知识，非常不错，具有一定的参考借鉴价值 ,需要的朋友可以参考下
2018-09-09
Node.js+pm2+ssh2模块实现简单的自动化部署脚本
本文将介绍如何使用Node.js和ssh2模块实现一个简单的部署脚本,将本地的项目文件上传到远程服务器上,我们将使用dotenv模块来管理环境变量,以及child_process模块来执行命令行操作
2023-10-10
koa2使用ejs和nunjucks作为模板引擎的使用
这篇文章主要介绍了koa2使用ejs和nunjucks作为模板引擎的使用，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-11-11
解决npm install版本不匹配问题: npm ERR! code ETARGET npm ERR!
这篇文章主要介绍了如何解决npm install版本不匹配问题: npm ERR! code ETARGET npm ERR! notarget No matching version found for,文中给出了详细的解决方法,需要的朋友可以参考下
2024-02-02
教你彻底搞懂ESM与CJS互相转换
这篇文章主要为大家介绍了ESM与CJS互相转换的理解与实现示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
node.js+express制作网页计算器
这篇文章主要介绍了node.js+express制作网页计算器的相关资料,需要的朋友可以参考下
2016-01-01

Node.js 利用cheerio制作简单的网页爬虫示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具