Operators
Operator 可翻译成算子,即:将一个或多个数据流转换成一个新的数据流的计算过程。用户可以将多个算子组合使用来实现复杂数据流的转换逻辑。
常见 Operators
Map
DataStream -> DataStream
接受一个元素,然后生成一个元素。下面的代码将源数据数值加倍生成一个新数据:
DataStream<Integer> dataStream = //...
dataStream.map(new MapFunction<Integer, Integer>() {
@Override
public Integer map(Integer value) throws Exception {
return 2 * value;
}
});
Filter
DataStream -> DataStream
用一个布尔型的函数来评估数据流中的每个元素,如果评估结果为真则保留,否则丢弃。下面的代码过滤出数值为0的元素:
dataStream.filter(new FilterFunction<Integer>() {
@Override
public boolean filter(Integer value) throws Exception {
return value != 0;
}
});
KeyBy
DataStream → KeyedStream
逻辑上将一个数据流拆成几个互不相交的分区。拥有相同 key 的记录被分配到同个分区内。内部通过哈希分区的方式实现。区分 key 的方式有多种。下面的代码返回一个 KeyedStream,这个 KeyedStream 可以在将来某个场景提供 keyed state 属性接口。
dataStream.keyBy(value -> value.getSomeKey()) // Key by field "someKey"
dataStream.keyBy(value -> value.f0) // Key by the first element of a Tuple
注意:以下类型不能被当成 key
- 本身是 POJO 类型但没有重写 hashCode() 方法,并且依赖 Object.hashCode() 实现。
- 是一个包含任意类型的数组
Aggregations
KeyedStream → DataStream
在 keyed data stream 上进行聚合操作。其中 min
与 minBy
的区别是,前者返回具体的值,后者返回该元素。如:
keyedStream.sum(0);
keyedStream.sum("key");
keyedStream.min(0);
keyedStream.min("key");
keyedStream.max(0);
keyedStream.max("key");
keyedStream.minBy(0);
keyedStream.minBy("key");
keyedStream.maxBy(0);
keyedStream.maxBy("key");
通过上面介绍,想必对 Operators 有了一定了解,就是 Flink 实现了的一系列转换数据的接口,各接口接收的数据源类型不同,处理逻辑不同,产出的数据类型也不同,但都能在数据源上执行一定处理逻辑。
接下来聊一聊 Chaining。
Task chaining 和资源组
在 task 执行过程中,连续执行的几个算子往往会随机分配到不同的线程处理,这增加了线程间交换与缓冲的开销,通过调用链接接口,可以把连续的算子强行安排到同一个线程上处理以提高 task 的执行性能。默认情况下,Flink 会尽可能将多个算子连接起来(如两个连续的 map 转换)。
当然,Flink 还提供许多细粒度的链接控制 API,需要注意的是,调用这些 API 时必须紧跟在某个 Operator 之后,而不能直接作用于一个数据流,原因是这些 API 都依赖于之前的转换 Operator,例如:
-
someStream.map(...).startNewChain()
:是允许的,可以开启一个新的链 -
someStream.startNewChain()
:是不允许的,该 API 未跟在某个 Operator 后面
注意:用户可以通过调用接口
StreamExecutionEnvironment.disableOperatorChaining()
来禁止整个 job 的链接操作。
Flink 中的 resource group
其实就是一个 slot,是整个集群的最小调度单位,属于 TaskManagers,每个 TaskManager 所拥有的 slot 数默认为1,在集群启动时,可以通过改变配置 taskmanager.numberOfTaskSlots
来增加,slot 越多,意味着该 TaskManager 能够同时处理的 task 越多。
通过调用不同的链接接口,我们可以把不同的算子隔离分配到不同的 slots 中:
开启新链
接口:startNewChain()
用例:someStream.filter(...).map(...).startNewChain().map(...);
解释:开启一个新的链,将接口前后的算子分派到一个独立的 slot 上,这不包括 filter 这个算子,因为他未与 startNewChain()
直接相连。
关闭链接
接口:disableChaining()
用例:someStream.map(...).disableChaining();
解释:由于 Flink 会尽可能将多个 Operator 链接起来,即分配到同个 slot 上处理,如果你想关闭这个机制,除了前面提到的调用StreamExecutionEnvironment.disableOperatorChaining()
关闭整个 job 的链接机制之外,还可以在该算子之后调用接口disableChaining()
来仅取消链接这个算子。
设置 slot sharing group
接口:slotSharingGroup()
用例:someStream.filter(...).slotSharingGroup("name");
解释:在 Operator 后调用此接口,可该 Operator 进行分组,同分组内的 Operator 执行时会被 Flink 安排到同一个 slot 中,非本分组内的其他 Operators 将会被分配到其他 slots 中。默认的 slot sharing group 叫“deafult”。