简介
Azkaban在官网上的说明中介绍是支持集群模式的,网上看了不少文章,写得最多的是solo-server安装,零星的有几篇集群安装,但也没有说到很详细的地步。 而且execute-as-user都是关闭的,这个特性对我们很重要,因为HDFS上的操作如果没有这个特性,就是所有操作都是一个用户做的,问题追溯很不方便。 这次正好工作中有机会做安装,运维同事又档期不足,所以顺便把整个过程记录下来。
注意:所有的配置与启动操作都需要使用root账号
准备工作
下载源码
Azkaban官网上没有构建好的发布包,代码版本:3.50.0。下载
构建环境准备
构建Azkaban代码,需要的组件: Gradle
gcc g++ git 这三个都用yum做安装。
构建
安装组件完毕后,进入到azkaban的源代码根目录,执行操作
./gradlew build
./gradlew installDist
构建之后,每个组件的包在自己的目录里,这些目录里有build/distributions,构建结果就在这里。
特殊组件
execute-as-user特性由单独的一个名为execute-as-user.c文件编译的结果提供的,但是用gradle构建不会编译这个c文件。
当前版本中,这个文件在 az-exec-util/src/main/c目录下。
使用 gcc execute-as-user.c -o execute-as-user 命令编译
然后使用chown root execute-as-user 和 chmod 6050 execute-as-user 设置权限
设置完权限后,ls -l 看下,这个文件的属性这样的
---Sr-s--- 1 root root 10185 Aug 3 13:02 execute-as-user
如果我们要把这个文件复制到其他目录下,就又会变成普通文件,记得复制完了再做一次 chmod 6050 execute-as-user
部署
把azkaban-web-server.0.1.0.tar.gz和azkaban-exec-server.0.1.0.tar.gz 分别放到不同的机器上。我测试用就放到了两台机器的/opt目录下,后面文章中两台机器分别命名为web-server和exec-server。
配置
MySQL
为Azkaban安装MySQL的操作网上太多了,此处忽略掉了。唯一要注意的是,这个版本的sql创建脚本中,有一些字段varchar类型长度超过了mysql的限制,所以创建表的时候如果报错,把varchar字段长度修改为128即可。目前发现的表一个是execution_logs,另外一个是execution_jobs。
web-server
登录到web-server机器上,进入/opt目录,解压azkaban-web-server-0.1.0-SNAPSHOT.tar.gz ,把azkaban-web-server-0.1.0-SNAPSHOT目录修改为azkaban-web目录,进入目录内部
补全目录
当前目录内有 bin lib web 三个目录,还需要手动建立 conf extlib plugins三个目录。
- bin 启动停止脚本
- conf 配置文件
- extlib mysql驱动
- lib azkaban的jar文件
- web web-server的web资源,css js之类
- plugins 插件
配置web-server
进入conf目录,这里面应该放四个配置文件 azkaban.properties、global.properties和azkaban-users.xml、log4j.properties,编译好的solo-server里有这些配置文件,可以copy过来。我们主要修改的就是azkaban.properties。
keystore
web-server内置的jetty会是可以开启ssl的,我们需要为ssl生成key,这个操作网上一搜一大把。比如这里,按照说明步骤,一顿无脑操作,得到keystore和truststore
azkaban.properties
这个文件里的内容如下
# web-server个性化设置,包azkaban的名称,标签,颜色,sevlet路径,web资源路径,时区。除了时区之外我们都用默认的
azkaban.name=Azkaban
azkaban.label=BigdataTeam
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=web/
default.timezone.id=Asia/Shanghai
# 用户管理配置,使用默认的管理类XmlUserManager,配置文件就是之前说的azkaban-users.xml
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml
# 数据库配置
database.type=mysql
mysql.port=3306
mysql.host=ip地址
mysql.database=azkaban
mysql.user=数据库用户名
mysql.password=数据库密码
mysql.numconnections=100
#Velocity模板
velocity.dev.mode=false
# Jetty配置 开启ssl,没设置端口是因为ssl默认8443
jetty.use.ssl=true
jetty.maxThreads=25
jetty.keystore=刚才生成的keystore的路径+文件名称
jetty.password=keystore生成时输入的第一个密码
jetty.keypassword=keystore生成时输入的第二个密码
jetty.truststore=刚才生成的truststore的路径+文件名称
jetty.trustpassword=truststore生成时输入的密码
#任务监控时发送邮件的账号和目标邮箱地址,我们自己的监控是任务失败短信提醒,所以不需要
mail.sender=
mail.host=
job.failure.email=
job.success.email=
lockdown.create.projects=false
cache.directory=cache
# JMX stats
jetty.connector.stats=true
executor.connector.stats=true
# Azkaban plugin settings
azkaban.jobtype.plugin.dir=plugins/jobtypes
#集群多Executor时的配置,从官网copy的
azkaban.use.multiple.executors=true
azkaban.executorselector.filters=StaticRemainingFlowSize,MinimumFreeMemory,CpuStatus
azkaban.executorselector.comparator.NumberOfAssignedFlowComparator=1
azkaban.executorselector.comparator.Memory=1
azkaban.executorselector.comparator.LastDispatched=1
azkaban.executorselector.comparator.CpuUsage=1
注意:这个脚本里面所有的配置文件都写了相对路径,启动azkaban的时候,就在/opt/azkaban-web目录中使用bin/start-web.sh启动,不然azkaban会找不到配置文件
log4j.properties
官网没提这东西,但是没有这个文件启动不了。去azkaban-web-server的源码中搜了一个,然后放到conf目录里。
azkaban-users.xml
这个文件里我们配置azkaban的用户,具体的配置我先不写了,很简单看这里需要注意的是,因为我们开启了execute-as-user,所以添加的用户都需要是exec-server机器上的操作系统账号,且属于同一个用户组(原因参考exec-server部分的 配置plugins 小节)
exec-server
登录到exec-serve上,进入/opt目录,解压azkaban-exec-server.0.1.0-SNAPSHOT.tag.gz ,将解压得到的目录:azkaban-exec-server.0.1.0-SNAPSHOT重命名为azkaban-exec,进入到这个目录下。
补全目录
进入到这个目录里,子目录为bin和lib,还需要手动创建conf extlib plugins 三个目录
- bin 启动停止脚本
- conf 配置文件
- lib azkaban的jar包
- extlib mysql驱动包
- plugins 插件配置
配置exec-server
进入conf目录,这里面应该放三个配置文件 azkaban.properties、global.properties和log4j.properties,编译好的solo-server里有这些配置文件,可以copy过来。我们主要修改的就是azkaban.properties。
azkaban.properties
# 时区配置
default.timezone.id=Asia/Shanghai
# 加载任务时需要的配置
executor.global.properties=conf/global.properties
# azkaban执行任务时,工程代码放的位置
azkaban.project.dir=projects
# MySQL配置
database.type=mysql
mysql.port=3306
mysql.host=IP地址
mysql.database=azkaban
mysql.user=
mysql.password=
mysql.numconnections=100
# 当前executor端口
executor.port=12321
# 邮件配置
mail.sender=
mail.host=
job.failure.email=
job.success.email=
lockdown.create.projects=false
cache.directory=cache
# JMX stats
jetty.connector.stats=true
executor.connector.stats=true
# 插件配置位置
azkaban.jobtype.plugin.dir=plugins/jobtypes
配置plugins
进入plugins目录,创建jobtypes目录,然后cd进去。在这里创建一个名为commonprivate.properties的配置文件。如果要关闭execute-as-user特性,就在这里写execute.as.user=false(默认是true)。但我们就是要这个特性,所以不对这个属性做设置。然后添加如下配置
# 这个配置是我们前面编译的execute-as-user.c文件编译后的结果(就是那个execute-as-user文件)的存储位置,
# 我没试过相对位置,但绝对位置肯定好用
azkaban.native.lib=/opt/azkaban-exec/plugins/jobtypes
# 任务执行的时候,我们开启了execute-as-user属性,
# azkaban不知道登录用户对应的系统用户的所属组,默认会使用azkaban这个组(但很可能当前机器上没有这个组)
# 所以我在executor这个机器上创建了一个bigdata用户组,未来所有使用azkaban的人员他们在这台机器上的账号所属的组都是bigdata
azkaban.group.name=bigdata
log4j.properties
官网同样没提这东西,但是没有这个文件启动不了。去azkaban-exec-server的源码中搜了一个,然后放到conf目录里。
启动
现在这个版本,启动各个节点是有顺序要求的。按下面的顺序来应该没问题
启动exec-server
到azkaban-exec目录下,执行 bin/start-exec.sh ,jps一下应该可以看到进程了。
坑爹要点
修改MySQL数据
启动完exec-server之后,需要到mysql中去把executors表更新一下,把对应的executor的active字段设置为 1 。不然没有状态为1的executor,web-server启动不了。我看exec-server代码中,有一个Servlet对外提供了方法,让web-server启动完毕后,http调用下这个方法,exec-server就会把自己设置为active=1的状态,但是web-server那边启动的时候先判断有没有处在active=1状态的executor,后面才发这个http请求,所以如果不手动设置一下web-server肯定启动报错。不知道是不是azkaban的bug。启动后我们手工发个http请求给exec-server设置active为1是不是可以我还没去尝试。
修改web-server的hosts
启动完executor后,观察executors表中的记录,会发现这个表里的host字段存储的是主机名,web-server通过这个字段和端口字段的值向exec-server发送消息,所以web-server那台机器上的hosts要增加配置。
关闭exec-server
关闭exec-server时要注意,exec-server的代码会根据host和端口把自己这条记录从executors表中删掉,下次启动的时候我们还要手工去设置active字段为1
启动web-server
到azkaban-web目录下,执行bin/start-web.sh,jps下就可以看到进程了。
关闭
web-server和exec-server的bin目录下都有对应的shutdown脚本,bin/shutdown-web.sh 和 bin/shutdown-exec.sh
日志
目前输出的日志文件都在web-server和exec-server的根目录下(/opt/azkaban-web或者/opt/azkaban-exec),有什么问题可以看这里的日志见招拆招
结束
到这里,azkaban应该已经可以正常运行了,到浏览器里敲下 https://xxx.xxx.xxx.xxx:8443 试试吧。