调度框架Azkaban快速入门

本文作者:林伟兵,叩丁狼高级讲师。原创文章,转载请注明出处。

1. Azkaban概述

Azkaban技术产生前景:

​ 在大数据分析场景中,以ETL( Extract抽取 -Transform交互转换 -Load加载 )为例 ,数据的操作包含了如下流程:RDBMS ==>Sqoop ==>Hadoop ==>Sqoop ==>RDBMS/NoSQL/...,这里涉及了三个流程:数据抽取 ==> 数据清洗 ==> 数据入库

​ 这三个步骤出现了明显的顺序问题。假设数据抽取需要3h,数据清洗需要2h,数据入库需要1h。我们可以使用linux shell提供的crontab 来实现。他的优点是使用简单,缺点却有很多:

 1\. 流程不便于跟踪和监控(流程某个环境出错没办法监控)。
    2\. 在这个流程中有些模块执行的时间可能出现延迟/提前。比如数据清洗预测需要2h,结果用了3h,此刻数据入库在前一个任务还没执行完就已经开始执行了;比如清洗预测需要2h,结果用了1h,导致后面的流程出现无效等待的状态。

因此,像Azkaban这样的调度框架在我们数据平台中就扮演着很重要的角色。

大数据中常见的调度框架

大数据中常见的调度框架,最常见的就是crontab。除此之外还有很多集成框架:

  1. Quartz:Quartz是OpenSymphony[ˈəʊpən ˈsɪmfəni] 开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与J2SE应用程序相结合也可以单独使用。
  2. Azkaban:Azkaban是由Linkedin公司推出的一个批量工作流任务调度器, 其使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流 。
  3. Oozie:Oozie是一个工作流引擎服务器,用于运行hadoop map/reduce和hive等任务工作流。同时Oozie还是一个java web程序,运行在java servlet容器中,如tomcat中。Oozie以action为基本单位,可以将多个action构成一个DAG图的模式运行。Oozie工作流通过HPDL(一种通过XML自定义处理的语言)来构造Oozie工作流。
  4. Zeus:宙斯是阿里巴巴开源的一款分布式Hadoop作业调度平台,实现任务的分布式调度,支持多机器的水平扩展。

Azkaban概述

​ Azkaban是一个由LinkedIn 创建的用来跑Hadoop 任务的批量的工作流执行器;其解决了job依赖顺序的问题,并提供了一个简单易用的用户界面检测我们的工作流。

Azkaban特性如下:

  • 兼容所有Hadoop版本

  • 简单易用的web操作界面和web工作流资源提交机制

  • 在Azkaban中每个项目相互独立互不影响。

  • 良好的工作流执行封装(执行任务流无需太复杂的操作 一个按钮搞定)。

  • 模块化和插件化:执行的具体任务不会与Azkaban相互耦合,代码侵入性低。

  • 认证与授权:良好的权限管理机制

  • 跟踪用户的行为:方便出现问题后知道是哪个用户的错误导致的。

  • 任务成功/失败后的 邮件通知机制

  • 任务错误的重试机制

Azkaban3.x 以后不提供直接的安装包下载,其安装包需通过Gradle脚本来编译, 并且要求最低的Java版本是8. 如下是Azkaban的学习网站:

  1. Azkaban的官网:https://azkaban.github.io
  2. Azkaban的框架源码:https://github.com/azkaban/azkaban
  3. Azkaban文档:https://github.com/azkaban/azkaban.github.io

2. Azkaban架构简析

Azkaban由三个关键组件构成(如下图):

  • MySQL关系型数据库:Azkaban使用数据库存储大部分状态,AzkabanWebServer和AzkabanExecutorServer都需要访问数据库。
  • AzkabanWebServer:AzkabanWebServer是整个Azkaban工作流系统的主要管理者,它负责project管理、用户登录认证、定时执行工作流、跟踪工作流执行进度等一系列任务。
  • AzkabanExecutorServer:早期版本的Azkaban在单个服务中具有AzkabanWebServer和AzkabanExecutorServer功能,目前Azkaban已将AzkabanExecutorServer分离成独立的服务器。其好处是某个任务流失败后,可以更方便的将其重新执行,便于Azkaban升级。
image.png

Azkaban的两种运行模式

在版本3.0中,Azkaban提供了以下两种模式:

  • solo server mode:最简单的模式,数据库内置的H2数据库,AzkabanWebServer和AzkabanExecutorServer都在一个进程中运行,任务量不大项目可以采用此模式(特别适合初学者学习使用,功能齐全)。
  • multiple executor mode: 适用于更多的生产环境,其使用MySQL 来进行元数据管理并且支持主从结构。在这种模式下web server和executor server 独立运行在不同的主机中。这种模式带来的好处是可以让Azkaban更加健壮和可扩展。

在学习的过程中,我们可以使用来solo server 这种模式来运行Azkaban实例。

3. Azkaban的下载和编译

  1. 下载之前 请确保本机的 Java 版本为 1.8

  2. 下载Azkaban源码:

    image.png
  3. 解压azkaban压缩包并进入该目录:

    image.png

azkaban-common: 基本的依赖包

azkaban-db: 框架核心组件-数据库工具

azkaban-exec-server & azkaban-web-server : 框架核心组件

azkaban-solo-server: 集成运行模式工具包

azkaban-spi : azkaban存储接口以及exception类

azkaban-hadoop-security-plugin: hadoop 有关kerberos插件

  1. 在编译源码之前,先要下载gradle的依赖包,至于要什么版本,查看如下:

    image.png

如下地址是Gradle的官方下载地址:https://services.gradle.org/distributions

下载好对应的版本后,将压缩包存放到如下位置:

image.png

修改配置文件:

image.png
  1. 返回安装包主目录执行编译程序(注意官方给出的编译版本不带测试命令-x test,示例如下)

    # Build without running tests
    >$ ./gradlew build installDist -x test
    
    
  2. 执行上面的命令,出现了git有关的异常,这里主要是系统没有安装git命令,使用yum install -y git,后重新执行步骤4,接下来等待漫长的下载(因为默认使用的是国外的gradle镜像进行资源下载)。

    image.png
  3. 为了减少编译时下载占用时间,一般会为gradle远程资源提供镜像地址方便下载:

    #在 ${AZKABAN_HOME}/build.gradle文件中配置,然后重新执行步骤4:
    mavenLocal()
    maven{ url 'http://maven.aliyun.com/nexus/content/groups/public/'}
    maven{ url 'http://maven.oschina.net/content/groups/public/'}
    
    
    image.png
  4. 编译成功后,可以找到整个架构的每个部分都会多出一个build文件夹,这才是我们要安装的文件:

    [root@azkabanvm azkaban]# ls azkaban-solo-server/build
    classes  distributions  install  libs  resources  tmp
    [root@azkabanvm azkaban]# ls azkaban-exec-server/build
    classes  distributions  install  libs  resources  tmp
    [root@azkabanvm azkaban]# ls azkaban-web-server/build
    classes  distributions  dust  install  jsToPackage  less  libs  nodejs  resources  tmp
    [root@azkabanvm azkaban]# ls azkaban-db/build
    classes  distributions  install  libs  sql  tmp
    

想获取更多技术视频,请前往叩丁狼官网:http://www.wolfcode.cn/openClassWeb_listDetail.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容