YayCrawler分布式爬虫系统 v1.0

YayCrawler下载

  • 源码大小:101MB
  • 源码语言:简体中文
  • 源码类型:国产软件
  • 源码授权:免费软件
  • 源码类别:java源码
  • 应用平台:Java
  • 更新时间:2022-11-25
  • 网友评分:
360通过 腾讯通过 金山通过

情介绍

YayCrawler分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等。

项目目标

在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力,爬虫框架里的一股清流。

主要功能

基于WebMagic开发的完整的分布式爬虫框架,该框架特点如下:

1、完全分布式:由管理端(Admin)、调度端(Master)和多个Worker组成,各个组件通过Http协议通信。

2、完全配置化:通过Admin端的页面配置规则就可以爬取任何网站的数据,当然不同网站的难度不一样,会有不同的组件分别针对处理登录、验证码、封IP等问题。

3、可扩展的任务队列:任务队列由Redis实现,根据任务的状态有四种不同的任务队列:初始、执行中、成功、失败。您也可以扩展不同的任务调度算法,默认是公平调度。

4、可定义持久化方式:爬取结果中,属性数据默认持久化到MonogoDB,图片会被下载到文件服务器,当然您可以扩展更多的存储类型。

5、稳定和容错:任何一个爬虫任务都会重试和记录,只有任务真正成功了才会被移到成功队列,失败会有失败的原因描述。

技术选型

核心框架:Webmagic Spring boot

任务调度:Spring + Quartz

持久层框架:Spring Jpa

数据库&连接池:Alibaba Druid MongoDB MySql

缓存框架:Redis Ehcache

日志管理:SLF4J、Log4j2

前端框架: Bootstrap + Jquary

开发环境配置:

1.安装JDK8

2.安装mysql数据库,用作存储解析规则等数据,需要创建一个“yayCrawler”的数据库实例,并执行quartz相关的数据库脚本:quartz.sql(见发布包或源码)。

3.安装redis

4.安装mongoDB用于存放结果数据

5.安装ftp服务器软件ftpserver(可选,用于存放下载图片)

启动说明:

导入项目,maven install 安装 Admin,Worker,Master 模块。 然后生成的Jar拷贝到 crawler.worker / deploy 目录中,记住改配置文件里面的Redis,mysql mogodb 的IP ,点击start.bat启动。

(Linux & Windwos) java -jar worker.war --spring.config.location=worker_local.properties
关闭命令:

(Windows) for /f "tokens=1-5 delims= " %%a in ('"netstat -ano|findstr "^:8086""') do taskkill /f /pid %%e
各组件通信说明:
一、Admin Admin层主要负责页面抽取规则配置,页面Site配置,资源管理和任务发布

二、Master 分布式爬虫的控制中心,接受Admin发布的任务,并分派任务给worker执行。

2.1、接收发布任务

2.2、接受Worker的注册

三、Worker 真正干事情的苦逼青年,接受Master分派的任务并执行,定时向Master汇报心跳

载地址

下载错误?【投诉报错】

YayCrawler分布式爬虫系统 v1.0

      气源码

      关文章

      • Java轻量级类隔离框架 SOFAArk Project v2.3.0

        SOFAArk 是一款基于 Java 实现的动态热部署和轻量级类隔离框架,由蚂蚁集团开源贡献,主要提供应用模块的动态热部署和类隔离能力。欢迎需要的朋友下载使用...

      • SpringBlade微服务开发平台 v4.4.0

        SpringBlade 是一个由商业级项目升级优化而来的SpringCloud分布式微服务架构、SpringBoot单体式微服务架构并存的综合型项目,采用Java8 API重构了业务代码,完全遵循阿里巴...

      • Diboot轻代码开发平台 v2.11.0

        Diboot轻代码开发平台是一个面向开发人员的低代码开发平台,将重复性的工作自动化,提高质量、效率、可维护性...

      • RuoYi-activiti工作流平台源码 v4.1

        RuoYi-activiti是一款以若依开源权限管理系统为基础开发平台并集成了activiti框架完成的工作流系统,旨在打造集流程设计、流程部署、流程执行、任务办理、流程监控于一体的...

      • RuoYi若依权限管理系统 v4.7.9

        RuoYi若依权限管理系统是一个基于SpringBoot的权限管理系统,代码易读易懂、界面简洁美观, 核心技术采用Spring、MyBatis、Shiro没有任何其它重度依赖,喜欢的朋友快来下载...

      • Java Struts2漏洞复现工具

        今天给大家分享Java Struts2漏洞复现工具,喜欢的朋友快来下载体验吧...

      • java操作excel的jar包(jxl.jar包 源码)

        jxl.jar是通过java操作excel表格的工具类库,能够修饰单元格属性,是由java语言开发而成的,接下来通过本文给大家介绍java操作excel的jar包(jxl.jar包 源码),喜欢的朋友快...

      • springboot整合QuartJob实现定时器实时管理源代码

        Quartz是一个完全由java编写的开源作业调度框架,形式简易,功能强大,,下面给大家分享springboot整合QuartJob实现定时器实时管理源代码,感兴趣的朋友快来下载体验吧...

      • SOFABoot开源框架 v3.24.0

        SOFABoot 是蚂蚁集团开源的基于 Spring Boot 的研发框架,它在 Spring Boot 的基础上,提供了诸如 Readiness Check,上下文隔离,类隔离,日志空间隔离等等能力...

      • 基于SSM的应急资源管理系统源码 v1.0

        应急资源管理系统用的是是比较流行的SSM和前端JSP技术,用它来创建使用脚本语言,结合HTML代码来制作动态 网页,欢迎需要的朋友下载使用...

      载声明

      ☉ 解压密码:www.jb51.net 就是本站主域名,希望大家看清楚,[ 分享码的获取方法 ]可以参考这篇文章
      ☉ 推荐使用 [ 迅雷 ] 下载,使用 [ WinRAR v5 ] 以上版本解压本站软件。
      ☉ 如果这个软件总是不能下载的请在评论中留言,我们会尽快修复,谢谢!
      ☉ 下载本站资源,如果服务器暂不能下载请过一段时间重试!或者多试试几个下载地址
      ☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持!
      ☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。
      ☉ 本站提供的YayCrawler分布式爬虫系统 v1.0资源来源互联网,版权归该下载资源的合法拥有者所有。