使用八爪鱼采集器采集滚动加载和点击加载数据的教程

 更新时间:2023年05月20日 17:12:18   投稿:yin  
现在很多网站的列表,需要向下滚动页面,才能加载出新数据。或者点击“查看更多”加载新数据。使用广泛的火车头采集器相对无力,使用八爪鱼采集器可以采集滚动刷新和点击刷新。

现在很多网站的列表,需要向下滚动页面,才能加载出新数据。使用广泛的火车头采集器相对无力,使用八爪鱼采集器可以采集滚动刷新和点击刷新。

适用场景:将滚动条直接下来到网页底部,出现类似【加载中】字样,稍后马上有新数据出现,且滚动条变短回弹。

我们需采集新闻列表数据。就需要在打开网页后不断向下滚动,加载新数据。

在八爪鱼中怎么实现呢?以下为具体操作步骤。

步骤一、进入自定义任务编辑页面

把网址复制到八爪鱼客户端首页的输入框中,点击开始采集进入自定义任务配置页面。

步骤二、设置滚动方式,调整滚动次数、每次间隔时间

点击打开网页步骤,在下方步骤设置区域点击高级设置,找到页面滚动,点击勾选页面滚动。此网页是无限滚动的,八爪鱼默认设置的【滚动方式】是滚动到底部,默认【滚动次数】100次、默认【每次间隔】1秒。大家可根据实际需求进行调整。【每次间隔】时间需稍大于网页上数据加载的时间(网页上数据加载的时间又跟网速等因素有关)。

结合这个网站的加载特征,这里修改【滚动方式】为向下滚动一屏(一般情况滚动方式都建议大家选择向下滚动一屏);为方便演示,在这里,设置【滚动次数】5次。

步骤三:配置列表数据采集。

启动采集来看一下采集结果。八爪鱼自动执行了【直接滚动到底部】5次,然后采集滚动5次后的数据。

特别说明:

1、此网页是无限向下滚动加载数据的,八爪鱼无法一次采集到所有数据。上面示例是设置了滚动5次,实际采集过程中可根据需求来设置滚动次数。

2、此类网页常见于数据实时性高的新闻类网站,在八爪鱼中可以使用云采集,设置定时启动,少量多次采集最新数据。

3、有时候网页很快,类似【加载中】的提示不明显。【是否有新数据出现】、【观察滚动条的回弹次数】是比较好用的判断标准,请注意观察网页。

4. 【向下滚动一屏】的一屏,跟运行采集任务时的窗口展示区域有关。如下图,左侧滚动的一屏 > 右侧滚动的一屏。

5.若设置滚动后启动采集不滚动的,可能是页面是局部滚动的,需要设置局部滚动不是全局滚动。局部滚动判断方式,在目标网页打开【调试控制台】输入:document.scrollingElement.scrollBy(0, 100) 回车运行。如果页面没有向下滚动,说明不是全局滚动。

到此这篇关于使用八爪鱼采集器采集滚动刷新和点击刷新的教程的文章就介绍到这了,更多相关八爪鱼采集器采集滚动刷新和点击刷新内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • OAuth从1.0到2.1的发展之路

    OAuth从1.0到2.1的发展之路

    OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。简单来说就是提供除了"账户密码"验证方式以外的验证授权方式。这篇文章介绍了OAuth从1.0到2.1的发展之路,感兴趣的同学可以收藏一下
    2021-11-11
  • C++/QT/Python/MATLAB获取文件行数的示例详解

    C++/QT/Python/MATLAB获取文件行数的示例详解

    这篇文章主要为大家学习介绍了如何利用C++、QT、Python、MATLAB分别实现获取文件行数的功能,文中的示例代码讲解详细,需要的可以参考一下
    2023-08-08
  • Burp Suite Pro安装和配置使用教程详解

    Burp Suite Pro安装和配置使用教程详解

    本文给大家分享的是Burp Suite Pro1.7.36安装配置使用教程,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2021-09-09
  • 一篇文章理解阻塞、非阻塞、同步、异步

    一篇文章理解阻塞、非阻塞、同步、异步

    这篇文章主要介绍了阻塞、非阻塞、同步、异步的意义以及他们之间存在的区别,该如何学会他们,文中讲解的很细致,需要的小伙伴可以自己看一下
    2021-08-08
  • 域名是什么,有什么用,DNS怎么工作的?

    域名是什么,有什么用,DNS怎么工作的?

    域名(Domain Name)是由字母、数字和连字符组成的字符串,用于标识互联网上的计算机、服务或资源,通过映射到IP地址(如192.0.2.1),让人类能够更方便地访问网络资源,在互联网世界中,域名如同现实世界的门牌号码,是连接用户与数字资源的桥梁
    2025-04-04
  • Git Submodule管理项目子模块的使用

    Git Submodule管理项目子模块的使用

    这篇文章主要介绍了Git Submodule管理项目子模块的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • Chrome拓展(Chrome Extension)开发定时任务插件

    Chrome拓展(Chrome Extension)开发定时任务插件

    文章讲述了如何在ChromeExtension中实现定时任务,包括使用chrome.alarmsAPI、结合contentscript的状态感知定时器和基于事件触发的模拟定时,文章强调了任务的幂等性、状态的持久化存储、记录执行日志和防止重复执行的重要性
    2025-04-04
  • 使用roolup构建你的lib(实现步骤)

    使用roolup构建你的lib(实现步骤)

    大家都知道Rollup更加适合用于构建lib 而 Webpack, Precel 更加适合开发应用。本文,将结合一个简单的例子说说如何使用Rollup构建自己的lib,感兴趣的朋友一起看看吧
    2021-08-08
  • MacOS上Homebrew 安装、配置、更改国内镜像源及使用图文详解

    MacOS上Homebrew 安装、配置、更改国内镜像源及使用图文详解

    Homebrew是一个强大的包管理器,适用于macOS和Linux系统,可以简化软件的安装、升级和卸载过程,它包括brew、homebrew-core、homebrew-cask和homebrew-bottles四个主要部分,通过tap和cask可以扩展功能,安装图形界面应用,Homebrew还提供了各种命令来管理和维护已安装的软件包
    2024-11-11
  • 利用ChatGPT编写一段嵌入式代码

    利用ChatGPT编写一段嵌入式代码

    ChatGPT也热火朝天了有一段时间了,今天闲来没事,也想着玩一玩ChatGPT,看看是不是网上说的那么强大!本文就来用ChatGPT编写一段嵌入式代码,看看效果如何
    2023-02-02

最新评论