项目简介
巨鲸任务调度平台是美柚大数据研发的分布式计算任务调度系统,专注于Spark、Flink等批处理任务的DAG调度以及流处理任务的运行管理与状态监控。同时具备Yarn应用管理、重复应用检测、大内存应用检测等功能,基于Spring Boot 2.0开发,打包后即可运行。
项目的主要特性和功能
- DAG调度:支持Spark、Flink等批处理任务按依赖关系有序执行。
- 流处理任务管理:提供运行管理与状态监控,保障实时任务稳定运行。
- Yarn应用管理:集成Yarn Rest Api同步任务状态,对Spark、Flink无版本限制。
- 失败重试:任务失败后可自动重试,提高成功率。
- 任务依赖:支持复杂任务编排,确保任务按序执行。
- 告警功能:配置邮件或钉钉告警后,任务异常时发送通知。
安装使用步骤
1. 准备环境
- Java 1.8+
- Mysql 5.1.0+
- 下载项目或通过git clone项目
2. 安装
- 创建数据库:
big-whale
- 按Spring Boot环境配置数据库账号密码及SMTP信息。配置项说明:
ssh.user
:有脚本执行权限的ssh远程登录用户名ssh.password
:ssh远程登录用户密码dingding.enabled
:是否开启钉钉告警dingding.watcher-token
:钉钉公共群机器人Tokenyarn.app-memory-threshold
:Yarn应用内存上限(MB),-1禁用检测yarn.app-white-list
:Yarn应用白名单列表
3. 启动
- 检查端口17070是否被占用,若占用则关闭进程或修改端口配置重新打包。
- 拷贝target目录下的big-whale.jar,执行:
java -jar big-whale.jar
4. 初始配置
- 打开:
http://localhost:17070
- 输入账号
admin
,密码admin
- 修改当前账号邮箱为合法存在的邮箱,避免邮件发送失败
- 添加集群:
- 集群管理->集群管理->新增
- “yarn管理地址”为Yarn ResourceManager的WEB UI地址
- “程序包存储目录”为程序包上传至hdfs集群的存储路径,如
/data/big-whale/storage
5. 使用
- 离线调度:支持“Shell”、“Spark Batch”和“Flink Batch”批处理任务。
- 实时任务:支持“Spark Stream”和“Flink Stream”流处理任务。
- 任务告警:配置邮件或钉钉告警后,任务异常时发送通知。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】