资源链接在文章末尾,包含文件:
1. 说明
Kettle 的 KJB 或 KTR 调用使用的 shell 脚本,朋友可能会想,可以用 Linux 的 crontab 调度任务,为什么需要? Azkaban 这批工作流任务调度器呢?原因是如果调度任务有依赖关系,比如数据提取任务执行后调用统计任务,只使用 crontab 很难实现,由于无法知道当前任务何时候结束,因此无法准确地执行下一个任务
,而使用 Azkaban 简单轻松愉快 ??
为了反映任务调度的依赖性,我们设置了一个场景:1 读取 excel 将文件内容写入数据库
2?? 对数据库数据进行统计放入统计表
实际上 Kettle 可以用一个 KJB 实现上述流程,但如果第一步不仅仅是个流程 excel 还需要导入文件 Hadoop 其他数据库的数据应该从上面的数据中提取?都写在一个脚本里,KTR有的流程执行快,有的执行慢,会导致任务堵塞和使用 Azkaban 第二步流程完成后可立即调用。
2. 工具准备
- 部署 Azkaban 查看前一篇文章《Azkaban 3.70.0 编译》和