背景介绍,因为需求是外部数据和内部生产数据之间需要通步,因此dataworks数据同步模块的源和目标它不支持多网络环境,要么是公共网络,要么是内部网络,所以这需要我们dataworks我们研究了两们研究了两个工具,一个是dataxweb ,一个是dolphinscheduler ,今天的篇幅主要讲解建筑dataxweb的流程。
1)安装基本软件
MySQL (5.5 ) 必选,可选择相应的客户端, Linux若安装服务mysql通过部署脚本,客户端可以快速初始化数据库
JDK (1.8.0_xxx) 必选
Maven (3.6.1 ) 必选
DataX 必选
Python (2.x) (支持Python需要修改更换datax/bin下面的三个python文件,替换文件doc/datax-web/datax-python3下) 必选主要用于调度执行底层DataX的启动脚本,默认的方式是以Java实施子过程模式DataX,用户可以选择Python自定义改造的方法。
2)dataX安装
您可以选择多种安装方式,选择直接下载datax安装包,
Datax:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
下载后,解压到本地目录,输入bin同步作业可在目录中运行:
$ cd {YOUR_DATAX_HOME}/bin $pythondatax.py{YOUR_JOB.json} 自检脚本:python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
验证datax安装成功。
Datax其他安装方法,datax官网介绍:
https://github.com/alibaba/DataX/blob/master/userGuid.md
1)dataxweb安装包准备
载官方版本tar版本包https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg提取码: cpsk
编译包装(官方提供)tar包跳过)
直接从Git以上获取源代码,并在项目根目录下执行以下命令mvn clean install成功实施后,项目将在项目中实施build在目录下生成安装包 ,build/datax-web-{VERSION}.tar.gz
2) 开始部署
解压安装包在选定的安装目录中
tar -zxvf datax-web-{VERSION}.tar.gz mv datax-web-2.1.2 datax-web
3)一键安装脚本
进入解压目录,找到解压目录bin目录下面的install.sh如果文件选择交互式安装,则直接执行
在交互模式下,每个模块package压缩包的解压以及configure配置脚本的调用将要求用户确认,可根据提示检查安装是否成功,若安装不成功,可重复尝试; 如果您不想使用交互模式并跳过确认过程,请执行以下安装命令
shinstall.sh–force
4) 数据库初始化
如果安装在您的服务上mysql命令,在执行安装脚本的过程中则会出现
以下提醒:
Scan out mysql command, so begin to initalize the database Do you want to initalize database with sql: [{INSTALL_PATH}/bin/db/datax-web.sql]? (Y/N)y Please input the db host(default: 127.0.0.1): Please input the db port(default: 3306): Please input the db username(default: root): Please input the db password(default: ): Please input the db name(default: exchangis)
在大多数情况下,初始化可以根据提示输入数据库地址、端口号、用户名、密码和数据库名称。 如果服务没有安装mysql命令可以在目录下使用/bin/db/datax-web.sql手动执行脚本,完成后修改相关配置文件:
vi ./modules/datax-admin/conf/bootstrap.properties
这里我选择的是阿里云的rds,也可以选择mysql, 根据具体情况配置相应的值。
5) 配置
安装完成后,
项目目录:/modules/datax-admin/bin/env.properties 配置邮件服务(可跳过)
MAIL_USERNAME=""
MAIL_PASSWORD=""
此文件中包括一些默认配置参数,例如:server.port,具体请查看文件。在项目目录下/modules/datax-execute/bin/env.properties指定PYTHON_PATH的路径
vi ./modules/{module_name}/bin/env.properties
### 执行datax的python脚本地址
PYTHON_PATH=
### 保持和datax-admin服务的端口一致;默认是9527,如果没改datax-admin的端口,可以忽略
DATAX_ADMIN_PORT=
此文件中包括一些默认配置参数,例如:executor.port,json.path,data.path等,具体请查看文件。
6) 启动服务
一键启动所有服务
中途可能发生部分模块启动失败或者卡住,可以退出重复执行,如果需要改变某一模块服务端口号,则:
vi ./modules/{module_name}/bin/env.properties
找到SERVER_PORT配置项,改变它的值即可。 当然也可以单一地启动某一模块服务:
./bin/start.sh -m {module_name}
一键取消所有服务
./bin/stop-all.sh
当然也可以单一地停止某一模块服务:
./bin/stop.sh -m {module_name}
7) 查看服务
在Linux环境下使用JPS命令,查看是否出现DataXAdminApplication和DataXExecutorApplication进程,如果存在这表示项目运行成功
Tips: 脚本使用的都是bash指令集,如若使用sh调用脚本,可能会有未知的错误
8) 运行
部署完成后,在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面(ip为datax-admin部署所在服务器ip,port为为datax-admin 指定的运行端口)
输入用户名 admin 密码 123456 就可以直接访问系统
9) 运行日志
部署完成之后,在modules/对应的项目/data/applogs下(用户也可以自己指定日志,修改application.yml中的logpath地址即可),用户可以根据此日志跟踪项目实际启动情况。如果执行器启动比admin快,执行器会连接失败,日志报"拒绝连接"的错误,一般是先启动admin,再启动executor,30秒之后会重连,如果成功请忽略这个异常。
10) 集群部署
修改modules/datax-executor/conf/application.yml文件下admin.addresses地址。 为了方便单机版部署,项目目前没有将ip部分配置到env.properties,部署多节点时可以将整个地址作为变量配置到env文件。
将官方提供的tar包或者编译打包的tar包上传到服务节点,按照步骤5中介绍的方式单一地启动某一模块服务即可。例如执行器需要部署多个节点,仅需启动执行器项目,执行 ./bin/start.sh -m datax-executor
调度中心、执行器支持集群部署,提升调度系统容灾和可用性。
* 1.调度中心集群:
DB配置保持一致;<br>
集群机器时钟保持一致(单机集群忽视);<br>
* 2.执行器集群:
执行器回调地址(admin.addresses)需要保持一致;执行器根据该配置进行执行器自动注册等操作。
同一个执行器集群内AppName(executor.appname)需要保持一致;调度中心根据该配置动态发现不同集群的在线执行器列表。
11) 邮件源码修改
因为我们使用的是微软的邮箱,exchange 2016 ,所以在配置邮件的时候发布出来邮件,因此我把原来下载下来,debug看一下原因,后面发现是因为在源码中存在不严谨的地方,把username后面也当成了user ,我们自建的邮件服务器是 不支持的,因此我把springboot的注解做了修改,重新打包上传安装。
三、DataX-web的使用
1)执行器配置(使用开源项目xxl-job)
1、"调度中心OnLine:"右侧显示在线的"调度中心"列表, 任务执行结束后, 将会以failover的模式进行回调调度中心通知执行结果, 避免回调的单点风险;
2、"执行器列表" 中显示在线的执行器列表, 可通过"OnLine 机器"查看对应执行器的集群机器;
执行器属性说明
1、AppName: (与datax-executor中application.yml的datax.job.executor.appname保持一致)
每个执行器集群的唯一标示AppName, 执行器会周期性以AppName为对象进行自动注册。可通过该配置自动发现注册成功的执行器, 供任务调度时使用;
2、名称: 执行器的名称, 因为AppName限制字母数字等组成,可读性不强, 名称为了提高执行器的可读性;
3、排序: 执行器的排序, 系统中需要执行器的地方,如任务新增, 将会按照该排序读取可用的执行器列表;
4、注册方式:调度中心获取执行器地址的方式;
自动注册:执行器自动进行执行器注册,调度中心通过底层注册表可以动态发现执行器机器地址;
手动录入:人工手动录入执行器的地址信息,多地址逗号分隔,供调度中心使用;
5、机器地址:"注册方式"为"手动录入"时有效,支持人工维护执行器的地址信息;
2)创建数据源
3)创建任务模版
4) 构建JSON脚本
步骤一,步骤二,选择第二步中创建的数据源,JSON构建目前支持的数据源有hive,mysql,oracle,postgresql,sqlserver,hbase,mongodb,clickhouse 其它数据源的JSON构建正在开发中,暂时需要手动编写。
字段映射
点击构建,生成json,此时可以选择复制json然后创建任务,选择datax任务,将json粘贴到文本框。也可以点击选择模版,直接生成任务。
5)批量创建任务
6) 任务创建介绍(关联模版创建任务不再介绍,具体参考4. 构建JSON脚本)
支持DataX任务,Shell任务,Python任务,PowerShell任务
阻塞处理策略:调度过于密集执行器来不及处理时的处理策略;
单机串行:调度请求进入单机执行器后,调度请求进入FIFO队列并以串行方式运行;
丢弃后续调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,本次请求将会被丢弃并标记为失败;
覆盖之前调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,将会终止运行中的调度任务并清空队列,然后运行本地调度任务;
增量增新建议将阻塞策略设置为丢弃后续调度或者单机串行
设置单机串行时应该注意合理设置重试次数(失败重试的次数*每次执行时间<任务的调度周期),重试的次数如果设置的过多会导致数据重复,例如任务30秒执行一次,每次执行时间需要20秒,设置重试三次,如果任务失败了,第一个重试的时间段为1577755680-1577756680,重试任务没结束,新任务又开启,那新任务的时间段会是1577755680-1577758680
增量参数设置
分区参数设置
7)任务列表
8) 可以点击查看日志,实时获取日志信息,终止正在执行的datax进程
9 ) 任务资源监控
10) admin可以创建用户,编辑用户信息
小结:
如果公司的数据量不是很大,并且在预算有限的情况下,dataxweb是个不错的选择,后续我会接着讲,dolphinscheduler的相关的datax的调度模块,以及遇到的问题和解决。
参考文章:
1.https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md#2%E6%89%A7%E8%A1%8C%E4%B8%80%E9%94%AE%E5%AE%89%E8%A3%85%E8%84%9A%E6%9C%AC
2.https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/increment-desc.md