Node.js 实现简单爬虫的示例代码

 更新时间:2025年02月24日 08:31:06   作者:忆宸_1  
本文主要介绍了Node.js 实现简单爬虫,爬取美食网站的菜品标题和图片链接,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

介绍

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
本文将使用 Nodejs 编写一个简单的爬虫脚本,爬取一个美食网站,获取菜品的标题和图片链接,并以表格的形式输出。

准备工作

1、初始化项目

首先,确保已安装 Node,然后创建一个新的文件目录,运行以下命令初始化 Node.js 项目

npm init -y

2、安装依赖

使用 axios 库来进行 HTTP 请求
使用 cheerio 库来解析 HTML 内容
使用 node-xlsx 库来将数据写入 Excel 文件

npm install axios cheerio node-xlsx --save

代码实现

1、创建爬虫脚本

在项目根目录下创建一个 crawler.js 文件,并写入以下代码

import axios from "axios";
import cheerio from "cheerio";

// 目标网页的URL,这里使用 下厨房 这个美食网站作为测试
const targetUrl = "https://www.xiachufang.com/category/40076/";

// 请求目标网页,获取HTML内容
const getHtml = async () => {
  const response = await axios.get(targetUrl);

  if (response.status !== 200) {
    throw new Error("请求失败");
  }
  return response.data;
};

// 解析HTML内容,获取菜品的标题和图片链接
const getData = async (html) => {
  const $ = cheerio.load(html);
  const list = [];
  $(".normal-recipe-list li").each((i, elem) => {
    const imgUrl = $(elem).find("img").attr("src");
    const title = $(elem).find("p.name a").text();
    list.push({
      title: title.replace(/[\n\s]+/g, ""),
      imgUrl,
    });
  });
  return list;
};

2、以 Excel 表格形式保存数据

import xlsx from "node-xlsx";
import fs from "fs";

// 根据 表头数据 和 列表数据 转换成二维数组
const transData = (columns, tableList) => {
  const data = columns.reduce(
    (acc, cur) => {
      acc.titles.push(cur.header);
      acc.keys.push(cur.key);
      return acc;
    },
    { titles: [], keys: [] }
  );

  const tableBody = tableList.map((item) => {
    return data.keys.map((key) => item[key]);
  });
  return [data.titles, ...tableBody];
};

const writeExcel = (list) => {
  // 表头
  const columns = [
    { header: "菜名", key: "title" },
    { header: "图片链接", key: "imgUrl" },
  ];

  // 构建表格数据
  const tableData = transData(columns, list);
  const workbook = xlsx.build([
    {
      name: "菜谱",
      data: tableData,
    },
  ]);

  // 写入文件
  fs.writeFileSync("./菜谱.xlsx", workbook, "binary");
};

3、执行

(async () => {
  const html = await getHtml();
  const list = await getData(html);
  await writeExcel(list);
  console.log("执行完毕");
})();

运行爬虫

在终端中运行以下命令来执行爬虫代码

node crawler.js

效果图

总结

通过学习这个简单的示例,您可以进一步探索更复杂的爬虫应用,处理更多类型的网页和数据,并加入更多功能来实现您自己的爬虫项目。

到此这篇关于Node.js 实现简单爬虫的示例代码的文章就介绍到这了,更多相关Node.js 爬虫内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Node.js:模块查找,引用及缓存机制详解

    Node.js:模块查找,引用及缓存机制详解

    Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它的模块查找、引用和缓存机制是其重要的特性之一。本文将介绍Node.js的模块查找、引用和缓存机制,以及如何利用这些机制来提高应用程序的性能和可维护性。
    2023-03-03
  • Node.js实现Excel转JSON

    Node.js实现Excel转JSON

    本文给大家记录的是个人项目中遇到的,使用node.js实现Excel转换成Json的方法和过程,十分的简单实用,也很详细,这里推荐给有需要的小伙伴参考下。
    2015-04-04
  • gulp加批处理(.bat)实现ng多应用一键自动化构建

    gulp加批处理(.bat)实现ng多应用一键自动化构建

    这篇文章主要给大家介绍了利用gulp加上批处理(.bat)实现ng多应用一键自动化构建的相关资料,文中介绍的很详细,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-02-02
  • Node.js文件写入教程逐步深入探讨

    Node.js文件写入教程逐步深入探讨

    这篇文章主要为大家介绍了Node.js文件写入教程逐步深入探讨,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-11-11
  • 详解Nodejs之静态资源处理

    详解Nodejs之静态资源处理

    这篇文章主要介绍了详解Nodejs之静态资源处理,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-06-06
  • Koa2 之文件上传下载的示例代码

    Koa2 之文件上传下载的示例代码

    本篇文章主要介绍了Koa2 之文件上传下载的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-03-03
  • 详解如何使用node.js的开发框架express创建一个web应用

    详解如何使用node.js的开发框架express创建一个web应用

    这篇文章主要介绍了详解如何使用node.js的开发框架express创建一个web应用,网上各种搜索后,整理了下快速搭建express框架的步骤。非常具有实用价值,需要的朋友可以参考下
    2018-12-12
  • yarn的安装和使用全网最详细教程

    yarn的安装和使用全网最详细教程

    Yarn是facebook发布的一款取代npm的包管理工具,本文给大家介绍yarn的安装和使用全网最详细教程,感兴趣的朋友一起看看吧
    2023-12-12
  • node schedule实现定时任务的示例代码

    node schedule实现定时任务的示例代码

    实际工作中,可能会遇到定时清除某个文件夹内容,本文主要介绍了node schedule实现定时任务的示例代码,具有一定的参考价值,感兴趣的可以了解一下
    2024-08-08
  • 浅谈Node异步编程的机制

    浅谈Node异步编程的机制

    本篇文章主要介绍了浅谈Node异步编程的机制,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10

最新评论