node puppeteer爬虫爬取电影网站及生成pdf文档示例

更新时间：2023年07月24日 09:05:52 作者：小小蚊子

这篇文章主要介绍了node puppeteer爬虫爬取电影网站及生成pdf文档使用示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

引言

利用空闲时间，学习了下puppeteer爬虫，我也想爬取下网上的资源

部分api

puppeteer.launch(options)

参数名称	参数类型	参数说明
ignoreHTTPSErrors	boolean	在请求的过程中是否忽略 Https 报错信息，默认为 false
headless	boolean	是否以“无头”的模式运行chrome，也就是不显示UI，默认为true
executablePath	string	可执行文件的路径，Puppeteer 默认是使用它自带的 chrome webdriver, 如果你想指定一个自己的 webdriver 路径，可以通过这个参数设置
slowMo	number	使 Puppeteer 操作减速，单位是毫秒。如果你想看看 Puppeteer 的整个工作过程，这个参数将非常有用
args	Array(String)	传递给 chrome 实例的其他参数，比如你可以设置浏览器窗口大小具体参数
timeout	number	等待chrome实例启动的最长时间，默认是3000ms，如果传入0，则不限制时间
dumpio	boolean	是否将浏览器锦程stdout和stderr导入到process.stdout和process.stderr中，默认为false
userDataDir	string	设置用户数据目录，默认linux是在~/.config目录，window 默认在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表当前登录的用户名
env	Object	指定对chromium可见的环境变量，默认为process.env
devtools	boolean	是否为每个选项卡自动打开DevTools面板，这个选项只有当headless设置为false的时候有效

设置浏览器窗口大小具体参数

browser对象

api

方法名	说明
browser.close()	返回一个promise对象，用于关闭浏览器
browser.newPage()	返回一个promise对象，创建一个page实例

page对象

方法名	说明
page.goto(url[, options])	返回一个promise对象，url是目标链接
page.waitForSelector()	等待某个选择器的元素加载之后，这个元素可以是异步加载的
page.evaluate(pageFunction[,args])	返回一个可序列化的普通对象，pageFunction 表示要在页面执行的函数， args 表示传入给 pageFunction 的参数

爬取电影网站

const puppeteer = require('puppeteer');
/* 爬虫的目标链接地址: 豆瓣电影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;
const sleep = time => new Promise(resolve => {
  setTimeout(resolve, time);
});
(async () => {
  console.log('crawler start to visit the target address');
  /* dumpio 是否将浏览器进程stdout和stderr导入到process.stdout和process.stderr中 */
  const browser = await puppeteer.launch({
    args: ['--no-sandbox'],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {
    waitUntil: 'networkidle2'
  });
  await sleep(3000);
  await page.waitForSelector('.more');
  for(let i = 0; i < 1; i++) {
    await sleep(3000);
    await page.click('.more');
  }
  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $('.list-wp a');
    let links = [];
    /* 获取对应的元素节点 */
    if(nodeItems.length >= 1) {
      nodeItems.each((index, item) => {
        let elem = $(item);
        let movieId = elem.find('div').data('id');
        let title = elem.find('.title').text();
        let rate = Number(elem.find('.rate').text());
        let poster = elem.find('img').attr('src').replace('s_ratio_poster','l_ratio_poster');
        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }
    return links;
  });
  browser.close();
  console.log(result)
})();

爬取网站内容生成pdf文件

const puppeteer = require('puppeteer');
const url = 'https://cn.vuejs.org/v2/guide/';
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: 'networkidle0' });
    /* 选择你要输出的那个PDF文件路径，把爬取到的内容输出到PDF中，必须是存在的PDF，可以是空内容，如果不是空的内容PDF，那么会覆盖内容 */
    let pdfFilePath = './index.pdf';
    /* 根据你的配置选项，我们这里选择A4纸的规格输出PDF，方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: 'A4',
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();
})()

正在努力学习中，希望你的学习有帮助

以上就是node puppeteer爬虫爬取电影网站及生成pdf文档示例的详细内容，更多关于node puppeteer爬虫爬取的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

node.js中使用q.js实现api的promise化
这篇文章主要介绍了node.js中使用q.js实现api的promise化,promise一个标准,它描述了异步调用的返回结果,包括正确返回结果和错误处理,需要的朋友可以参考下
2014-09-09
nodejs批量修改文件编码格式
本文给大家分享一段代码，主要是解决了在项目中遇到的一个问题，批量将GBK编码转换为UTF8，非常实用，推荐给大家。
2015-01-01
KOA+egg.js集成kafka消息队列的示例
这篇文章主要介绍了KOA+egg.js集成kafka消息队列的示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-11-11
详解nodejs微信公众号开发——5.素材管理接口
这篇文章主要介绍了详解nodejs微信公众号开发——5.素材管理接口，非常具有实用价值，需要的朋友可以参考下
2017-04-04
使用nvm实现多个nodejs版本的快速切换
NodeJS的升级比较快,在开发中要使用最新的版本,必须经常升级,但对于一些老项目可能又要使用低版本的NodeJS,使用nvm工具可以方便的管理下载的NodeJS版本,并通过命令实现NodeJS版本的快速切换,需要的朋友可以参考下
2024-09-09
Node.js中Process.nextTick()和Process.setImmediate()的区别
这篇文章介绍了Node.js中Process.nextTick()和Process.setImmediate()的区别，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-07-07
解决nvm i node版本问题
这篇文章主要介绍了解决nvm i node版本问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2026-05-05
node.js生成与读取csv文件方法详解
这篇文章主要介绍了node.js生成与读取csv文件方法详解,需要的朋友可以参考下
2022-10-10
一文详解node.js有哪些全局对象呢
这篇文章主要介绍了一文详解node.js有哪些全局对象呢，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感兴趣的小伙伴可以参考一下
2022-09-09
使用Raygun对Node.js应用进行错误处理的方法
这篇文章主要介绍了使用Raygun对Node.js应用进行错误处理的方法,Node.js是一款用于服务器端的JavaScript框架,需要的朋友可以参考下
2015-06-06