Flink开发利器StreamX

Hadoop体系虽然在目前应用非常广泛,但架构繁琐、运维复杂度过高、版本升级困难,且由于部门原因,数据中台需求排期较长,我们急需探索敏捷性开发的数据平台模式。在目前云原生架构的普及和湖仓一体化的大背景下,我们已经确定了将Doris作为离线数据仓库,将TiDB(目前>已经应用于生产)作为实时数据平台,同时因为Doris具有 on MySQL 的odbc能力,所以又可以>对外部数据库资源进行整合,统一对外输出报表

这里借用一下Doris官方的架构图

遇到的问题
在数据引擎上,我们确定使用SparkFlink

  • 使用Spark on K8s client 客户端模式做离线数据处理

  • 使用Flink on K8s Native-Application/Session 模式做实时任务流管理

在这里,实际上有一些问题我们一直没有彻底解决。用过Native-Application模式的朋友都知道,每提交一个任务,都需要打包新的镜像,提交到私有仓库,然后再调用Flink Run 指令沟通K8s,去拉取镜像运行Pod。任务提交之后,还需要去K8s查看log, 但是:

  1. 任务运行监控怎么处理?

  2. 使用Cluster模式还是Nodeport暴露端口访问Web UI?

  3. 提交任务能否简化打包镜像的流程?

  4. 如何减少开发压力?
    ......

解决问题的过程

以上的这些其实都是需要解决的问题,如果单纯的使用命令行去提交每个任务,是不现实的,任务量大了,会变得不可维护。如何解决这些问题变成一个不得不面对的问题。

简化镜像构建

首先,针对Flink原生镜像需要二次build的问题:我们利用了MINIO作为外部存储,并使用s3-fuse通过DaemonSet的方式直接挂载在了每个宿主节点上,我们所需要提交的jar包都可以放到上面统一管理,这样的话,即使扩缩容Flink节点,也能实现s3挂载自动伸缩。


image.png

Flink从1.13版本开始,就支持Pod Template,我们可以在Pod Template中利用数据卷挂载的方式再将宿主机目录挂载到每个pod中。从而无需镜像打包而直接在K8s上运行Flink程序。如上图,我们将s3先通过s3-fuse Pod挂载在Node1、Node2的/mnt/data-s3fs目录下,然后再将/mnt/data-s3fs挂载到Pod A中。

但是,因为对象存储随机写入或追加文件需要重写整个对象,导致这种方式仅适合于频繁读。而这刚好满足我们现在的场景。

引入低代码平台StreamX

之前我们写Flink Sql 基本上都是使用Java包装Sql,打jar包,提交到s3平台上,通过命令行方式提交代码,但这种方式始终不友好,流程繁琐,开发和运维成本太大。我们希望能够进一步简化流程,将Flink TableEnvironment 抽象出来,有平台负责初始化、打包运行Flink任务,实现Flink应用程序的构建、测试和部署自动化。

这是个开源兴起的时代,我们自然而然的将目光投向开源领域中,在一众开源项目中,经过对比各个项目综合评估发现ZeppelinStreamX这两个项目对Flink的支持较为完善,都宣称支持Flink on K8s,最终进入到我们的目标选择范围中,以下是两者在K8s相关支持的简单比较(目前如果有更新,麻烦批评指正)。

PS: 此处仅从调研用户角度出发,我们对双方开发都保持极大的尊重

调研过程中,我们与两者的主开发人员都进行了多次沟通。经过我们反复研究之后,还是决定将StreamX作为我们目前的Flink开发工具来使用。

经过开发同学长时间开发测试,StreamX目前已经具备:

  • 完善的Sql校验功能

  • 实现了自动build/push镜像

  • 使用自定义类加载器,通过Child-first 加载方式 解决了YARNK8s两种运行模式、支持了自由切换Flink多版本

  • 与Flink-Kubernetes进行深度整合,提交任务后返回WebUI,通过remote rest api + remote K8s ,追踪任务执行状态

  • 同时支持了Flink1.12、1.13、1.14等版本

以上基本解决了我们目前开发和运维中存在的大部分问题。

在目前最新发布的1.2.0版本中,StreamX较为完善的支持了K8s-Native-Application和K8s-session-Application模式。

K8s Native Application 模式
在StreamX中,我们只需要配置相应的参数,并在Maven pom中填写相应的依赖,或者上传依赖jar包,点击Apply,相应的依赖就会生成。这就意味着我们也可以将所有使用的Udf打成jar包 and 各种 connector.jar,直接在sql中使用。如下图:


image.png

Sql校验能力和 Zeppelin基本一致:

image.png

我们也可以指定资源,指定Flink Run中的动态参数Dynamic Option,甚至参数可以整合pod template

image.png

程序保存后,点击运行时,也可以指定savepoint。任务提交成功后,StreamX会根据FlinkPod网络Exposed Type(loadBalancer/Nodeport/ClusterIp),返回相应的WebURL,从而自然的实现WebUI跳转,但是目前因为线上私有K8s集群出于安全性考虑,尚未打通Pod与客户端节点网络(目前也没有这个规划),所以我们只使用Nodeport。如果后续任务数过多,有使用ClusterIP的需求的话,我们可能会将StreamX 部署在K8s,或者同ingress做进一步整合。

image.png

注意:K8s master 如果使用vip做均衡代理的情况下,Flink 1.13版本会返回vip的ip地址,1.14版本已经修复。

下面是K8s Application模式下具体提交流程

以上是依据个人理解绘制的任务提交流程图,如有错误,敬请谅解

K8s Native Session 模式
StreamX还较好的支持了K8s Native-Sesson模式,这为我们后续做离线FlinkSql开发或部分资源隔离做了较好的技术支持。

Native-session模式需要事先使用Flink命令创建一个运行在K8s中的Flink集群,如下:

./kubernetes-session.sh \
-Dkubernetes.cluster-id=flink-on-k8s-flinkSql-test \
-Dkubernetes.context=XXX \
-Dkubernetes.namespace=XXXX \
-Dkubernetes.service-account=XXXX \
-Dkubernetes.container.image=XXXX \
-Dkubernetes.container.image.pull-policy=Always \
-Dkubernetes.taskmanager.node-selector=XXXX \
-Dkubernetes.rest-service.exposed.type=Nodeport
image.png

如上图,使用该ClusterId作为StreamX的任务参数Kubernetes ClusterId。保存提交任务后,任务会很快处于Running状态

image.png

我们顺着application info的WebUI点击跳转


image.png

可以看到,其实StreamX是将jar包通过Rest Api上传到Flink集群上,并调度执行任务的。

Custom Code模式
另我们惊喜的是,StreamX 还支持代码编写DataStream/FlinkSql任务。对于特殊需求,我们可以自己写Java/Scala实现。可以根据StreamX推荐的脚手架方式编写任务,也可以编写一个标准普通的Flink任务,通过这种方式我们可以将代码管理交由Git实现,平台可以用来自动化编译打包与部署。当然,如果能用Sql实现的功能,我们会尽量避免自定义DataStream,减少不必要的运维麻烦。

意见和规划
改进意见

当然StreamX还有很多需要改进的地方,就目前测试来看:

  • 资源管理还有待加强

多文件系统jar包等资源管理功能尚未添加,任务版本功能有待加强。

  • 前端buttern 功能还不够丰富

比如任务添加后续可以增加复制等功能按钮。

  • 任务提交日志也需要可视化展示

任务提交伴随着加载class文件,打jar包,build镜像,提交镜像,提交任务等过程,每一个环节出错,都会导致任务的失败,但是失败日志往往不明确,或者因为某种原因导致异常未正常抛出,没有转换任务状态,用户会无从下手改进。

众所周知,一个新事物的出现一开始总会不是那么完美。尽管有些许问题和需要改进的point,但是瑕不掩瑜,我们仍然选择StreamX作为我们的Flink DevOps,我们也将会和主开发人员一道共同完善StreamX,也欢迎更多的人来使用,为StreamX带来更多进步。

未来规划

  • 我们会继续跟进doris,并将业务数据 + 日志数据统一入doris,通过Flink实现湖仓一体;

  • 我们也会逐步将探索StreamX同dolphinscheduler 2.x进行整合,完善dolphinscheduler离线任务,逐步用Flink 替换掉Spark,实现真正的流批一体;

  • 基于我们自身在s3上的探索积累,fat-jar包 build 完成之后不再构建镜像,直接利用Pod Tempelet挂载pvc到Flink pod中的目录,进一步优化代码提交流程;

  • 将StreamX持续应用到我们生产中,并汇同社区开发人员,共同努力,增强StreamX在Flink流上的开发部署能力与运行监控能力,努力把StreamX打造成一个功能完善的流数据 DevOps。

附:

Streamx 官网: http://streamxhub.com

Streamx Github: https://github.com/streamxhub/streamx

AWS s3挂载到K8s: https://zhuanlan.zhihu.com/p/372250644

Doris Github: https://github.com/apache/incubator-doris

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容