如何理解 Flink 中的 算子(operator)与链接(chain)?

Operators

Operator 可翻译成算子,即:将一个或多个数据流转换成一个新的数据流的计算过程。用户可以将多个算子组合使用来实现复杂数据流的转换逻辑。

常见 Operators

官方支持的数据流转换类型文档

Map

DataStream -> DataStream
接受一个元素,然后生成一个元素。下面的代码将源数据数值加倍生成一个新数据:

DataStream<Integer> dataStream = //...
dataStream.map(new MapFunction<Integer, Integer>() {
    @Override
    public Integer map(Integer value) throws Exception {
        return 2 * value;
    }
});

Filter

DataStream -> DataStream
用一个布尔型的函数来评估数据流中的每个元素,如果评估结果为真则保留,否则丢弃。下面的代码过滤出数值为0的元素:

dataStream.filter(new FilterFunction<Integer>() {
    @Override
    public boolean filter(Integer value) throws Exception {
        return value != 0;
    }
});

KeyBy

DataStream → KeyedStream
逻辑上将一个数据流拆成几个互不相交的分区。拥有相同 key 的记录被分配到同个分区内。内部通过哈希分区的方式实现。区分 key 的方式有多种。下面的代码返回一个 KeyedStream,这个 KeyedStream 可以在将来某个场景提供 keyed state 属性接口。

dataStream.keyBy(value -> value.getSomeKey()) // Key by field "someKey"
dataStream.keyBy(value -> value.f0) // Key by the first element of a Tuple

注意:以下类型不能被当成 key

  • 本身是 POJO 类型但没有重写 hashCode() 方法,并且依赖 Object.hashCode() 实现。
  • 是一个包含任意类型的数组

Aggregations

KeyedStream → DataStream
在 keyed data stream 上进行聚合操作。其中 minminBy 的区别是,前者返回具体的值,后者返回该元素。如:

keyedStream.sum(0);
keyedStream.sum("key");
keyedStream.min(0);
keyedStream.min("key");
keyedStream.max(0);
keyedStream.max("key");
keyedStream.minBy(0);
keyedStream.minBy("key");
keyedStream.maxBy(0);
keyedStream.maxBy("key");

通过上面介绍,想必对 Operators 有了一定了解,就是 Flink 实现了的一系列转换数据的接口,各接口接收的数据源类型不同,处理逻辑不同,产出的数据类型也不同,但都能在数据源上执行一定处理逻辑。
接下来聊一聊 Chaining。

Task chaining 和资源组

在 task 执行过程中,连续执行的几个算子往往会随机分配到不同的线程处理,这增加了线程间交换与缓冲的开销,通过调用链接接口,可以把连续的算子强行安排到同一个线程上处理以提高 task 的执行性能。默认情况下,Flink 会尽可能将多个算子连接起来(如两个连续的 map 转换)。

当然,Flink 还提供许多细粒度的链接控制 API,需要注意的是,调用这些 API 时必须紧跟在某个 Operator 之后,而不能直接作用于一个数据流,原因是这些 API 都依赖于之前的转换 Operator,例如:

  • someStream.map(...).startNewChain():是允许的,可以开启一个新的链
  • someStream.startNewChain():是不允许的,该 API 未跟在某个 Operator 后面

注意:用户可以通过调用接口 StreamExecutionEnvironment.disableOperatorChaining() 来禁止整个 job 的链接操作。

Flink 中的 resource group 其实就是一个 slot,是整个集群的最小调度单位,属于 TaskManagers,每个 TaskManager 所拥有的 slot 数默认为1,在集群启动时,可以通过改变配置 taskmanager.numberOfTaskSlots 来增加,slot 越多,意味着该 TaskManager 能够同时处理的 task 越多。

通过调用不同的链接接口,我们可以把不同的算子隔离分配到不同的 slots 中:

开启新链

接口:startNewChain()
用例:someStream.filter(...).map(...).startNewChain().map(...);
解释:开启一个新的链,将接口前后的算子分派到一个独立的 slot 上,这不包括 filter 这个算子,因为他未与 startNewChain()直接相连。

关闭链接

接口:disableChaining()
用例:someStream.map(...).disableChaining();
解释:由于 Flink 会尽可能将多个 Operator 链接起来,即分配到同个 slot 上处理,如果你想关闭这个机制,除了前面提到的调用StreamExecutionEnvironment.disableOperatorChaining()关闭整个 job 的链接机制之外,还可以在该算子之后调用接口disableChaining()来仅取消链接这个算子。

设置 slot sharing group

接口:slotSharingGroup()
用例:someStream.filter(...).slotSharingGroup("name");
解释:在 Operator 后调用此接口,可该 Operator 进行分组,同分组内的 Operator 执行时会被 Flink 安排到同一个 slot 中,非本分组内的其他 Operators 将会被分配到其他 slots 中。默认的 slot sharing group 叫“deafult”。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容