node puppeteer爬虫爬取电影网站及生成pdf文档示例

 更新时间:2023年07月24日 09:05:52   作者:小小蚊子  
这篇文章主要介绍了node puppeteer爬虫爬取电影网站及生成pdf文档使用示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

引言

利用空闲时间,学习了下puppeteer爬虫,我也想爬取下网上的资源

部分api

  • puppeteer.launch(options)
参数名称参数类型参数说明
ignoreHTTPSErrorsboolean在请求的过程中是否忽略 Https 报错信息,默认为 false
headlessboolean是否以“无头”的模式运行chrome,也就是不显示UI,默认为true
executablePathstring可执行文件的路径,Puppeteer 默认是使用它自带的 chrome webdriver, 如果你想指定一个自己的 webdriver 路径,可以通过这个参数设置
slowMonumber使 Puppeteer 操作减速,单位是毫秒。如果你想看看 Puppeteer 的整个工作过程,这个参数将非常有用
argsArray(String)传递给 chrome 实例的其他参数,比如你可以设置浏览器窗口大小具体参数
timeoutnumber等待chrome实例启动的最长时间,默认是3000ms,如果传入0,则不限制时间
dumpioboolean是否将浏览器锦程stdout和stderr导入到process.stdout和process.stderr中,默认为false
userDataDirstring设置用户数据目录,默认linux是在~/.config目录,window 默认在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表当前登录的用户名
envObject指定对chromium可见的环境变量,默认为process.env
devtoolsboolean是否为每个选项卡自动打开DevTools面板,这个选项只有当headless设置为false的时候有效

设置浏览器窗口大小具体参数

browser对象

api

方法名说明
browser.close()返回一个promise对象,用于关闭浏览器
browser.newPage()返回一个promise对象,创建一个page实例

page对象

方法名说明
page.goto(url[, options])返回一个promise对象,url是目标链接
page.waitForSelector()等待某个选择器的元素加载之后,这个元素可以是异步加载的
page.evaluate(pageFunction[,args])返回一个可序列化的普通对象,pageFunction 表示要在页面执行的函数, args 表示传入给 pageFunction 的参数

爬取电影网站

const puppeteer = require('puppeteer');
/* 爬虫的目标链接地址: 豆瓣电影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;
const sleep = time => new Promise(resolve => {
  setTimeout(resolve, time);
});
(async () => {
  console.log('crawler start to visit the target address');
  /* dumpio 是否将浏览器进程stdout和stderr导入到process.stdout和process.stderr中 */
  const browser = await puppeteer.launch({
    args: ['--no-sandbox'],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {
    waitUntil: 'networkidle2'
  });
  await sleep(3000);
  await page.waitForSelector('.more');
  for(let i = 0; i < 1; i++) {
    await sleep(3000);
    await page.click('.more');
  }
  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $('.list-wp a');
    let links = [];
    /* 获取对应的元素节点 */
    if(nodeItems.length >= 1) {
      nodeItems.each((index, item) => {
        let elem = $(item);
        let movieId = elem.find('div').data('id');
        let title = elem.find('.title').text();
        let rate = Number(elem.find('.rate').text());
        let poster = elem.find('img').attr('src').replace('s_ratio_poster','l_ratio_poster');
        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }
    return links;
  });
  browser.close();
  console.log(result)
})();

爬取网站内容生成pdf文件

const puppeteer = require('puppeteer');
const url = 'https://cn.vuejs.org/v2/guide/';
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: 'networkidle0' });
    /* 选择你要输出的那个PDF文件路径,把爬取到的内容输出到PDF中,必须是存在的PDF,可以是空内容,如果不是空的内容PDF,那么会覆盖内容 */
    let pdfFilePath = './index.pdf';
    /* 根据你的配置选项,我们这里选择A4纸的规格输出PDF,方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: 'A4',
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();
})()

 正在努力学习中,希望你的学习有帮助

以上就是node puppeteer爬虫爬取电影网站及生成pdf文档示例的详细内容,更多关于node puppeteer爬虫爬取的资料请关注脚本之家其它相关文章!

相关文章

  • node.js中的http.request方法使用说明

    node.js中的http.request方法使用说明

    这篇文章主要介绍了node.js中的http.request方法使用说明,本文介绍了http.request的方法说明、语法、接收参数、使用实例和实现源码需要的朋友可以参考下
    2014-12-12
  • Nodejs中Express 常用中间件 body-parser 实现解析

    Nodejs中Express 常用中间件 body-parser 实现解析

    这篇文章主要介绍了Nodejs中Express 常用中间件 body-parser 实现解析,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-05-05
  • 更新Node.js的四种方法小结

    更新Node.js的四种方法小结

    Node.js是一个开放源代码的跨平台JavaScript运行环境,它在不同的平台上都得到了广泛使用和支持,强大的生态系统、持续的更新和不断改进的性能使得Node.js非常受欢迎,然而,更新Node.js仍然是一个必要的过程,本文给大家介绍一些有关如何更新Node.js的方法
    2023-11-11
  • Node.js用readline模块实现输入输出

    Node.js用readline模块实现输入输出

    在学C++的时候,有cout和cin,Java也有println和Scanner控件,Node.js也有如同C++和Java的标准输入,当然,是用JavaScript实现的,它就是Readline模块。下面这篇文章就给大家详细介绍一下readline模块,来实现Node.js的控制台输入输出。有需要的可以参考借鉴。
    2016-12-12
  • 详解nodejs解压版安装和配置(带有搭建前端项目脚手架)

    详解nodejs解压版安装和配置(带有搭建前端项目脚手架)

    这篇文章主要介绍了详解nodejs解压版安装和配置(带有搭建前端项目脚手架) ,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-12-12
  • 实时通信WebSocket的原理和工作过程

    实时通信WebSocket的原理和工作过程

    WebSocket持久连接使得服务器可以主动向客户端推送数据,而不需要等待客户端的请求,是一种专门设计用于实现持久连接的协议,WebSocket的持久连接特性使其成为实时性要求高的应用的理想选择,如在线聊天、实时游戏、数据监控等
    2023-12-12
  • node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具)

    node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具)

    这篇文章主要介绍了node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具) ,需要的朋友可以参考下
    2019-04-04
  • 三分钟教会你用nodejs操作mysql数据库

    三分钟教会你用nodejs操作mysql数据库

    MySQL数据库作为最流行的开源数据库,基本上是每个web开发者必须要掌握的数据库程序之一了,基本使用 node.js上,最受欢迎的mysql包就是mysql模块,下面这篇文章主要给大家介绍了关于如何通过三分钟教会你用nodejs操作mysql数据库,需要的朋友可以参考下
    2023-05-05
  • nodejs配置express服务器运行自动打开浏览器详细步骤

    nodejs配置express服务器运行自动打开浏览器详细步骤

    在nodejs中使用express来搭建框架可以说是非常的简单方便,下面这篇文章主要给大家介绍了关于nodejs配置express服务器运行自动打开浏览器的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-01-01
  • node异步方法的异步调用与同步调用实现方法示例

    node异步方法的异步调用与同步调用实现方法示例

    这篇文章主要介绍了node异步方法的异步调用与同步调用实现方法,结合实例形式分析了node.js异步操作类的封装以及同步、异步两种调用方式,需要的朋友可以参考下
    2023-05-05

最新评论