nodejs+axios爬取html出现中文乱码并解决示例

 更新时间:2022年06月28日 08:57:50   作者:天问  
这篇文章主要为大家介绍了nodejs+axios爬取html出现中文乱码示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

一、乱码原因

当使用 nodejs + axios 来爬取某个 url 对应的 html 时,出现中文乱码。

在 HTML 页面的 head 中没有设置 <meta charset="UTF-8"> ,而 html 页面默认是 GBK 的编码。

使用 axios 发送请求 responseEncoding 默认是 utf8,造成编码不一致,导致最后获取到的 html 内容出现中文乱码。

二、解决办法

以二进制流的形式获取 HTML 内容,再对内容进行 GBK 编码解析。具体步骤如下:

  • 设置 axios 请求时的 responseType 为 arraybuffer;
  • 使用 TextDecoder 对象提供的方法对二进制流进行编码解析。

eg:

async function getHtml() {
  let res = await axios({
    url: "http://www.xxx.com",
    headers: {
      // ...
    },
    responseType: "arraybuffer", // 关键步骤
    responseEncoding: "utf8",
  });
  let { data } = res
  let utf8decoder = new TextDecoder("GBK"); // 关键步骤
  let html = utf8decoder.decode(data);
  console.log(html)
}

这样就能完美解决中文乱码的情况了。如果 HTML 设置的其他类型编码,只需要在 new TextDecoder() 实例化参数传入对应的编码即可。

API解读:

 TextDecoder 接口表示一个文本解码器,一个解码器只支持一种特定文本编码,例如: utf-8、iso-8859-2、koi8、cp1261,gbk 等等。解码器将字节流作为输入,并提供代码点流作为输出。

以上就是nodejs+axios解决html出现中文乱码示例的详细内容,更多关于nodejs axios解决html中文乱码的资料请关注脚本之家其它相关文章!

相关文章

  • 手把手教你如何使用nodejs编写cli命令行

    手把手教你如何使用nodejs编写cli命令行

    这篇文章主要介绍了手把手教你如何使用nodejs编写cli命令行,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-11-11
  • Nodejs实现内网穿透服务

    Nodejs实现内网穿透服务

    很多人都不知道什么是内网穿透,就是公网客户端,可以访问局域网内的服务,本文详细的介绍了原理以及实现,需要的朋友们下面随着小编来一起学习学习吧
    2021-05-05
  • nodeJS进程管理器pm2的使用

    nodeJS进程管理器pm2的使用

    这篇文章主要介绍了nodeJS进程管理器pm2的使用,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-01-01
  • Node.js操作mysql数据库增删改查

    Node.js操作mysql数据库增删改查

    这篇文章主要介绍使用Node.js操作mysql数据库增删改查的相关资料,需要的朋友可以参考下
    2016-03-03
  • 安装多版本node的完整步骤记录

    安装多版本node的完整步骤记录

    在平时的使用中常会遇到这样的场景,手上有多个前端项目,每个项目使用的Nodejs的版本都不太一致,下面这篇文章主要给大家介绍了关于安装多版本node的完整步骤,需要的朋友可以参考下
    2024-01-01
  • node中modules.exports与exports导出的区别

    node中modules.exports与exports导出的区别

    这篇文章主要介绍了node中modules.exports与exports导出的区别,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-06-06
  • nodejs模块nodemailer基本使用-邮件发送示例(支持附件)

    nodejs模块nodemailer基本使用-邮件发送示例(支持附件)

    本篇文章主要介绍了nodejs模块nodemailer基本使用-邮件发送示例(支持附件),具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
    2017-03-03
  • 在 Node.js 中使用原生 ES 模块方法解析

    在 Node.js 中使用原生 ES 模块方法解析

    这篇文章主要介绍了在 Node.js 中使用原生 ES 模块方法解析,还有部分内容的链接,下面我们就来一起看看吧,需要的朋友可以参考下。
    2017-09-09
  • Node server生成Swagger接口文档步骤详解

    Node server生成Swagger接口文档步骤详解

    本文介绍使用NodeJs搭建的后端server快速生成Swagger接口文档的技巧,本文有详细的步骤讲解,通过代码示例给大家介绍的非常详细,具有一定的参考价值,需要的朋友可以参考下
    2024-01-01
  • Node.js 文件夹目录结构创建实例代码

    Node.js 文件夹目录结构创建实例代码

    下面小编就为大家带来一篇Node.js 文件夹目录结构创建实例代码。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-07-07

最新评论