Node.js抓取网站中文乱码解决办法

 更新时间:2023年02月18日 15:04:53   作者:zihanzy  
这篇文章主要介绍了Node.js抓取网站中文乱码解决办法,需要的朋友可以参考下

问题:Node.js抓取网站中文乱码

async function getHtml(){
    let res = await axios.get(publicPath+"/pic/")
    console.log(res)
}

如上代码,axios默认是以utf8的方式去解码html
由于原网页的编码方式是gb2312 控制台打印中文乱码

_G��ԭ��_����ͼƬ��</b></a> </h3>\r\n' +
'<p> ������ĩ�ա������ף��ܽ��׵�һ����־�ϸ裬����ĩ�ռ��������ף�G����������ͼƬ�ף��׳���Ϊ�����Ǹ����ϴ��� ���������
����������Σ����Ÿ��Լ�һЩ��������Ҫ�ñ��˰�����������״ݻ١��ܽ�������һ�ײ�ͬ����... </p>\r\n' +
`<span class="spanimg1">���ࣺ

Node.js抓取网站中文乱码解决办法

stream尝试了很多种方式都无效,最后想到流请求

我们以流的方式去请求网页,因为流都是二进制数据,当我们获取到所有的二进制数据后,将其以原网页的编码方式去解码即可!

步骤
1.引入 iconv-lite
npm i iconv-lite

const axios = require('axios')
const cheerio = require('cheerio')
const iconv = require('iconv-lite')
//封装请求html方法
async function getHtml(url){
    let res = await axios.get(
         url,{
         responseType: 'stream'
    })
    return new Promise(resolve=>{
        let chunks = []
        res.data.on('data',chunk=>{
            chunks.push(chunk)
        })
        res.data.on('end',()=>{
            let buffer = Buffer.concat(chunks)
            let str = iconv.decode(buffer,'gb2312')
            resolve(str)
        }) 
    })
}

getHtml用于发送流请求
在函数内部封装了promise,
promise里面的res.data是一个可读流当获取到流数据时,我们及将其添加到chunks数组。
流数据获取完毕后,将二进制数据连接,并设置解码方式为gb2312
最好用cheerio封装一下

async function getData(){
    const html = await getHtml(publicPath+"/pic/")
    const $ = cheerio.load(html)
    console.log($.html())
}
getData()

解码后的数据

七里香》吉他谱,周杰伦的经典代表作品,七里香吉他六线谱,原调bE选调C,CAPO夹三品,完整版共五张弹唱图
片谱。感谢老姚吉他编配,并同步《七里香》吉他弹唱教学视频,琴友们可以跟随老师的示范讲解练习起来。 曲... </p>
<span class="spanimg1">分类: <a href="/geshou/Cdiaodanchangpu_1258_1.html" rel="external nofollow"  target="_blank">C调弹唱谱</a>  <a href="/geshou/jitajiaoxueshipin_5348_1.html" rel="external nofollow"  target="_blank">吉他教学视频</a>  </span> <span class="spanimg2">来源:未知 </span> <span class="spanimg3">2020-12-25</span>

以上就是Node.js抓取网站中文乱码解决办法的详细内容,更多关于Node.js抓取网站中文乱码解决办法的资料请关注脚本之家其它相关文章!

相关文章

  • 利用Node.js和MySQL实现创建API服务器

    利用Node.js和MySQL实现创建API服务器

    这篇文章主要为大家详细介绍了如何使用Node.js和MySQL创建API服务器的步骤,这也是从前端迈向全栈的一个开始,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下
    2024-01-01
  • 如何让node运行es6模块文件及其原理详解

    如何让node运行es6模块文件及其原理详解

    这篇文章主要介绍了如何让node运行es6模块文件及其原理详解,详细的介绍了2种方式,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-12-12
  • node创建Vue项目步骤详解

    node创建Vue项目步骤详解

    在本篇文章里小编给大家整理的是关于node创建Vue项目步骤详解内容,需要的朋友们可以学习下。
    2020-03-03
  • 一文详解nodejs的path模块使用

    一文详解nodejs的path模块使用

    这篇文章主要为大家介绍了nodejs的path模块使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • node.js中的fs.existsSync方法使用说明

    node.js中的fs.existsSync方法使用说明

    这篇文章主要介绍了node.js中的fs.existsSync方法使用说明,本文介绍了fs.existsSync方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
    2014-12-12
  • 预防NodeJS命令注入的方法详解

    预防NodeJS命令注入的方法详解

    Node.js和npm为前端生态中提供了统一的开发语言、强大的包管理和模块生态系统、灵活的构建工具和任务自动化、以及丰富的前端框架和库等等,本文给大家介绍了如何预防NodeJS命令注入,文中有详细的代码讲解,需要的朋友可以参考下
    2023-12-12
  • nodejs 实现MQTT协议的服务器端和客户端的双向交互的过程

    nodejs 实现MQTT协议的服务器端和客户端的双向交互的过程

    这篇文章主要介绍了nodejs 实现MQTT协议的服务器端和客户端的双向交互的过程,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2023-11-11
  • 详解使用Node.js 将txt文件转为Excel文件

    详解使用Node.js 将txt文件转为Excel文件

    这篇文章主要介绍了详解使用Node.js 将txt文件转为Excel文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-07-07
  • node.js中的events.emitter.removeAllListeners方法使用说明

    node.js中的events.emitter.removeAllListeners方法使用说明

    这篇文章主要介绍了node.js中的events.emitter.removeAllListeners方法使用说明,本文介绍了events.emitter.removeAllListeners 的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
    2014-12-12
  • 基于Koa2写个脚手架模拟接口服务的方法

    基于Koa2写个脚手架模拟接口服务的方法

    这篇文章主要介绍了基于Koa2写个脚手架模拟接口服务的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-11-11

最新评论