nodejs爬虫抓取数据之编码问题

 更新时间:2015年07月03日 09:48:26   投稿:hebedich  
这篇文章主要介绍了nodejs爬虫抓取数据之编码问题的相关资料,需要的朋友可以参考下

cheerio DOM化并解析的时候

1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现

2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时,可能就需要转义一番了

类似这些 因为需要作数据存储,所有需要转换

复制代码 代码如下:

Халк крушит. Новый способ исполнен

大多数都是&#(x)?\w+的格式

所以就用正则转换一番

var body = ....//这里就是请求后获得的返回数据,或者那些 .html()后获取的

//一般可以先转换为标准unicode格式(有需要就添加:当返回的数据呈现太多\\\u 之类的时)
body=unescape(body.replace(/\\u/g,"%u"));
//再对实体符进行转义
//有x则表示是16进制,$1就是匹配是否有x ,$2就是匹配出的第二个括号捕获到的内容,将$2以对应进制表示转换
body = body.replace(/&#(x)?(\w+);/g,function($,$1,$2){
        return String.fromCharCode(parseInt($2,$1?16:10));
       });

ok ~

当然了,网上也有很多个转换的版本,适用的就行了

后记:

当使用爬虫抓取网页数据时,cheerio模块是经常使用到底,它像jq那样方便快捷

(但有些功能并未支持或者换了某种形式,比如 jq的 jQuery('.myClass').prop('outerHTML') ,cheerio则等价于 jQuery.html('.myClass')http://www.mgenware.com/blog/?p=2514

相关文章

  • nodejs开发微信小程序实现密码加密

    nodejs开发微信小程序实现密码加密

    本文给大家分享的是在使用nodejs开发微信小程序的过程中,实现密码加密的示例代码,非常简单,有需要的小伙伴可以参考下
    2017-07-07
  • nodejs之请求路由概述

    nodejs之请求路由概述

    这篇文章主要介绍了nodejs的请求路由概述,需要的朋友可以参考下
    2014-07-07
  • nodejs中express入门和基础知识点学习

    nodejs中express入门和基础知识点学习

    这篇文章给大家分享了关于学习nodejs中express入门和基础知识点内容,有兴趣的朋友们参考下。
    2018-09-09
  • 详解用Node.js实现Restful风格webservice

    详解用Node.js实现Restful风格webservice

    本篇文章主要介绍了详解用Node.js实现Restful风格webservice,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • 详解如何使用Node.js编写命令工具——以vue-cli为例

    详解如何使用Node.js编写命令工具——以vue-cli为例

    本篇文章主要介绍了如何使用Node.js编写命令工具——以vue-cli为例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • node运行js获得输出的三种方式示例详解

    node运行js获得输出的三种方式示例详解

    这篇文章主要介绍了node运行js获得输出的三种方式,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-07-07
  • node获取命令行中的参数详解

    node获取命令行中的参数详解

    这篇文章主要为大家介绍了node获取命令行中的参数详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • Node.js fs模块原理及常见用途

    Node.js fs模块原理及常见用途

    这篇文章主要介绍了Node.js fs模块原理及常见用途,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • node.js调用C++开发的模块实例

    node.js调用C++开发的模块实例

    这篇文章主要介绍了node.js调用C++开发的模块实例,在node的程序中,如果有大数据量的计算,处理起来比较慢,可以用C++来处理,然后通过回调(callback的形式),返回给node,需要的朋友可以参考下
    2015-07-07
  • Node.js环境下Koa2添加travis ci持续集成工具的方法

    Node.js环境下Koa2添加travis ci持续集成工具的方法

    这篇文章主要给大家介绍了在Node.js环境下Koa2添加travis ci持续集成工具的方法,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面跟着小编一起来学习学习吧。
    2017-06-06

最新评论