Node.js爬取豆瓣数据实例分析

 更新时间:2018年03月05日 08:54:47   投稿:laozhang  
这篇文章通过实例给大家详细分析了Node.js爬取豆瓣数据的过程以及具体方法步骤,有兴趣的朋友可以参考学习下。

一直自以为自己vue还可以,一直自以为webpack还可以,今天在慕课逛node的时候,才发现,自己还差的很远。众所周知,vue-cli基于webpack,而webpack基于node,对node不了解,谈什么了解webpack。所以就自己给自己出了一道题,爬取豆瓣数据,目前还处于初级阶段。今天就浅谈爬取到豆瓣的数据,再另一个页面用自己的方式展现,后续会跟进。

1、需要解决的问题

  1. 搭建服务
  2. 怎么处理爬到的数据
  3. 怎么自动打开默认浏览器

2、搭建服务

搭建服务有好几种方式,一开始我用的http,但是http有个弊端就是不能解析https协议的url,所以就用了express,解析https协议的网址我用了request包,豆瓣的网址是https的,

今天爬取的是https://movie.douban.com/chart这个网址;如下图,我要获取的有三个部分,图片、电影名字、电影链接.

3、怎么处理爬到的数据

我们用request爬到的数据,怎么处理呢?cheerio包可以让我们像Jq那样处理爬到的html数据。

①、首先解析数据,取到爬取网页的html数据;

②、然后利用cheerio包操作爬到的数据,取到你想要的数据。

③、取到数据,创建html,输出到页面。如下图,我用的字符串拼接,办法有点笨,还没有找到更好的办法。

4、怎么自动打开默认浏览器

不知道你有没有看vue-cli中webpack的配置,自动打开浏览器,vue-cli用的opn包.

这个包用起来很方便,引入包,直接调用opn(url)即可;

5、展示

相关文章

  • nodejs之koa2请求示例(GET,POST)

    nodejs之koa2请求示例(GET,POST)

    本篇文章主要介绍了nodejs之koa2请求示例(GET,POST),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-08-08
  • node微信开发之获取access_token+自定义菜单

    node微信开发之获取access_token+自定义菜单

    这篇文章主要介绍了node微信开发之获取access_token+自定义菜单,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • NodeJS制作爬虫全过程

    NodeJS制作爬虫全过程

    这篇文章主要介绍了NodeJS制作爬虫的全过程,包括项目建立,目标网站分析、使用superagent获取源数据、使用cheerio解析、使用eventproxy来并发抓取每个主题的内容等方面,有需要的小伙伴参考下吧。
    2014-12-12
  • nodejs中实现路由功能

    nodejs中实现路由功能

    这篇文章主要介绍了nodejs中实现路由功能,顾名思义,路由指的就是我们要针对不同的URL有不同的处理方式,本文将教你在node.js中实现路由功能,需要的朋友可以参考下
    2014-12-12
  • Node中的streams流的具体使用

    Node中的streams流的具体使用

    本文主要介绍了Node中的streams流的具体使用,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • Windows系统下Node.js的简单入门教程

    Windows系统下Node.js的简单入门教程

    这篇文章主要介绍了Windows系统下Node.js的简单入门教程,Node.js是用于后端编程的JavaScript框架,需要的朋友可以参考下
    2015-06-06
  • node 利用进程通信实现Cluster共享内存

    node 利用进程通信实现Cluster共享内存

    本篇文章主要介绍了node 利用进程通信实现Cluster共享内存,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10
  • Node.js中处理错误的4种最佳方法分享

    Node.js中处理错误的4种最佳方法分享

    错误处理并不是编码工作中最吸引人的部分,但在 Node.js 中构建可靠、生产级别的应用程序时,它是绝对必要的,下面小编就来为大家介绍一下Node.js中处理错误的4种最佳方法吧
    2025-02-02
  • 浅谈JS前端模块化的几种规范

    浅谈JS前端模块化的几种规范

    这篇文章主要介绍了JS前端模块化的几种规范,对前端模块化感兴趣的同学,可以参考下
    2021-05-05
  • nodejs实现百度舆情接口应用示例

    nodejs实现百度舆情接口应用示例

    这篇文章主要介绍了nodejs实现百度舆情接口应用,结合实例形式分析了node.js调用百度舆情接口的具体使用技巧,需要的朋友可以参考下
    2020-02-02

最新评论