根据集群的生命周期、资源隔离方式和应用程序的main()方法执行位置(client或者JobManager)可以将集群部署模式分为:Flink Session Cluster(session mode)、Flink Job Cluster(per-job mode) 和Flink Application Cluster(application mode)三类。
Flink Session Cluster(session mode)
Flink Session Cluster集群部署模式也称为session mode。该模式集群会预先启动、长时间运行,并且能够接收多个job提交运行。也就是提交到集群的job共享一套flink runtime cluster(JobManager和TaskManager)。
该模式特点如下:
生命周期:集群生命周期不受job影响,只有手动关闭会话,集群才会被停止。
资源隔离:所有job共用一套JobManager和TaskManager,所有job间存在集群资源竞争,比如提交job阶段的带宽。并且当节点发生FO时,会影响多个job(JobManager crash会影响所有job)。
-
模式优点:
- 集群所有节点都预先启动,无需每次启动作业都申请资源、启动节点,尤其对于作业执行时间段、对job启动时间敏感的任务。
- 资源充分共享,提升资源利用率。
-
模式缺点:
- 资源隔离比较差。
- 非Native部署,TaskManager不容易扩展,Slot计算资源伸缩比较差。
Client负载:Client负载比较大,需要生成JobGraph,并将JobGraph及其依赖jar提交到JobManager。
Flink Job Cluter(per-job mode)
Flink Job Cluster集群部署模式又称为per-job mode。该模式与Job绑定,集群管理器会为每个Job启动一个flink runtime cluster(JobManager和TaskManager)。Client会首先向集群管理器请求资源来启动JobManager,并将job提交给其内部的Dispatcher,TaskManager根据job的资源请求延迟分配启动的。
该模式特点如下:
生命周期:集群生命周期和job绑定,job停止后集群也会被停止。
资源隔离:单个Job独享一套JobManager和TaskManager,不存在资源竞争问题。并且节点发生FO后,只会影响单个job。
-
模式优点:
- Job之间资源充分隔离,不会互相影响。
- 资源资源根据job所需来申请。
-
模式缺点:
- job启动慢,因为ResourceManager需要向外部资源管理器请求资源来启动TaskManager。所以一般适合long runtime类型job运行。
- 资源相较浪费,每个job都需要启动一个JobManager。
Client负载:Client负载比较大,需要生成JobGraph,并将JobGraph及其依赖jar上传到JobManager。
NOTE: Flink Job Cluster模式不支持部署在Kubernetes上。
Flink Application Cluster(application mode)
Flink Application Cluster集群部署模式又称为Application mode。该模式集群属于专属集群模式,只会执行一个Flink Application中的job,集群管理器为每个Flink Application启动一个flink runtime cluster(JobManager和TaskManager)。并且应用程序的main方法是运行在Cluster中,而不是client上。
该模式可以看做是对per-job模式和session模式的优化部署模式。集群执行job粒度上,相较前两者找到了更好的一个隔离点,并且减轻了Client的负载。
该模式特点如下:
生命周期:生命周期和Flink Application绑定,当Application全部执行完,集群才会停止。
资源隔离:Flink Application使用一套JobManager和TaskManager,相较前两种模式找到了一个比较好的隔离点。
-
模式优点:
- 降低Client负载。
- Application之间实现资源隔离,Application内实现资源共享。
-
模式缺点:
- 暂无
Client负载:用户将代码逻辑和相关依赖打到一个jar中。Client只需负责作业提交(不包括作业上传),所以负载非常轻。
NOTE: Application mode中的多个job,实际在代码上的表现就是能够允许在一个Application里面调用多次execute/executeAsyc方法。但是execute方法会被阻塞,也就是只有一个job完成之后才能继续下一个job的execute,但是可以通过executeAsync进行异步非阻塞执行。
另一个需要注意的点是,对于Application mode的进行HA部署时,是不支持多个execute执行的。