Flink处理函数实战之一：深入了解ProcessFunction的状态(Flink-1.10)

欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos

Flink处理函数实战系列链接

关于ProcessFunction状态的疑惑

学习Flink的ProcessFunction过程中，官方文档中涉及状态处理的时候，不止一次提到只适用于keyed stream的元素，如下图红框所示：

在这里插入图片描述

之前写过一些flink应用，keyed stream常用但不是必须用的，所以产生了疑问：

为何只有keyed stream的元素能读写状态？
每个key对应的状态是如何操作的？

Flink的"状态"

先去回顾Flink"状态"的知识点：

官方文档说就两种状态：keyed state和operator state：

在这里插入图片描述
如上图，keyed stream的元素是具有key的特征，与ProcessFunction的操作状态时要求匹配，其他steam的元素由于没有key的特征，所以也就没有状态一说了；
另一种状态是Operator State，如下图，这是和多并行度计算时的算子实例绑定的，例如当前算子消费kafka的某个分区的最新offset，而ProcessFunction是用来处理stream元素的，不会涉及到Operator State：

在这里插入图片描述

官方demo

为了学习ProcessFunction就去看官方demo，地址是：https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/stream/operators/process_function.html ，简单说说这个demo的功能：

数据源在不间断的产生单词，每个单词对应一个Tuple2<String,String>的实例；
数据源被keyBy方法转成KeyedStream，key是Tuple2实例的f0字段；
一个KeyedProcessFunction的子类CountWithTimeoutFunction，被用来处理KeyedStream的每个元素，处理的逻辑：为每个key维护一个状态，状态的内容是这个key的出现次数和最后一次出现时间；
如果那个key连续一分钟没有出现，KeyedProcessFunction就向下游发送这个元素；

以上就是官方demo的功能，本来是想通过demo来加深认识，结果看完不但没有明白，反而更晕了，下图是我对demo代码的疑惑：

在这里插入图片描述

从上图可见我的疑惑，这里再复述一下：

入参value是Tuple2类型，假设其f0字段等于aaa，那么processElement方法的作用，就是取出aaa的状态，更新后保存；
从代码上看，state.value()返回了aaa的状态，这个value方法并没有将aaa作为入参，那怎么做到返回aaa的状态呢？如果下一个入参value的f0字段等于bbb了，这个state.value()能返回bbb的状态吗？
对更新状态的代码state.update(current)也是同样的疑惑；
然后又产生了新的疑惑：成员变量state难道是一直在变？每执行一次processElement，都会变成该key对应的state实例？

先反思为何会有上述疑惑

上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value()方法没有用key做入参就不习惯了
要消除这种不适应，要做的第一件事就是提醒自己：processElement是在框架内运行的，很多数据在之前已经由框架准备好了；
接下来要做的，就是把框架准备数据的逻辑看一遍，除了弄明白自己的问题，由于ProcessFunction属于最低阶抽象(如下图的最下方位置)，看懂了这些，其实也是在了解DataStream/DataSet API的设计思路：

在这里插入图片描述

跟踪源码

如下图，让我们从一个断点的堆栈开始吧，这是在执行上面demo中的processElement方法之前的一个断点，可见根源是个线程的run方法，也就是KeyedProcessFunction对应的算子执行任务的线程：

在这里插入图片描述
上面的堆栈不必每一层都细看，只关注重要的部分，下图这段很重要：StreamTask.run方法中，有个无限循环（猜测是每次执行processInput方法都处理KeyedStream的一个元素）：

在这里插入图片描述
如下图，StreamOneInputProcessor.processInput方法取出KeyedStream的一个元素，调用processElement方法，并将此元素作为入参，再结合上一幅图可以看出：在编写KeyedProcessFunction子类的时候，KeyedStream的每个元素都会作为入参，在调用你重写的processElement方法时传进去；这一点，在做ProcessFunction和KeyedProcessFunction开发时都是要格外注意的：

在这里插入图片描述
接下来到了最关键的地方了，下图红框中的streamOperator.setKeyContextElement1(record)会解答我前面的疑惑，一定要进去看个清楚，(后面的黄线上的代码，您应该猜到了，里面其实就是调用demo中的processElement方法)

在这里插入图片描述
下图中，AbstractStreamOperator.setKeyContextElement给出了答案：对于KeyedStream的每个元素，都会在这里算出key，再调用setCurrentKey保存这个key：

在这里插入图片描述
展开setCurrentKey，如下图，发现key的保存和当前状态的存储策略(StateBackend)有关，我这里是默认策略HeapKeyedStateBackend：

在这里插入图片描述
最终，根据当前元素得到的key会在StateBackend的keyContext对象中找地方保存，StateBackend的具体实现和Flink设置有关，我这里是保存到了InternalKeyContextImpl实例的currentKey变量中：

在这里插入图片描述
代码读到这里，对我前面的疑惑，您应该能推测出答案了：state.value()里面会通过StateBackend的keyContext取出刚才保存的key，接下来就能像HashMap那样根据key查出该key的状态了，接下来是愉快的印证我们推测的过程；
在state.value()代码位置打断点一次看个明白，如下图，果然，state里面有StateBackend的keyContext对象的引用，访问刚才保存的key就不成问题了：

在这里插入图片描述
展开state.value()方法如下，简单明了，直接拿keyContext保存的key作为入参去取对应的状态：

在这里插入图片描述
再展开上面的get方法，可见最终是从stateMap中取得的，而这个stateMap的具体实现是CopyOnWriteStateMap类型的实例：

在这里插入图片描述
代码读到这里，只剩最后一处需要印证了：更新状态的state.update(current)方法，应该也是以StateBackend的keyContext中的key作为自己的key，再将入参的current作为value，更新到stateMap中，来吧，一起印证这个推测；
展开方法，看到的是stateTable.put方法（前面刚看过stateTable的get方法，稳了）：

在这里插入图片描述
stateTable.put方法里面和前面的get方法一样，直接拿keyContext保存的key作为自己的key：

在这里插入图片描述
最终是调用了stateMap.put方法，将数据保存在CopyOnWriteStateMap实例中：

在这里插入图片描述
得益于Flink代码自身规范、清晰的设计和实现，再加上IDEA强大的debug功能，整个阅读和分析过程十分顺利，这其中的收获会逐渐在今后深入学习DataStreamAPI的过程中见效；

最后，根据上面的分析过程绘制了一幅简陋的流程图，希望能帮助您加快理解：

在这里插入图片描述

欢迎关注公众号：程序员欣宸

微信搜索「程序员欣宸」，我是欣宸，期待与您一同畅游Java世界...
https://github.com/zq2599/blog_demos

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

Flink处理函数实战之一：深入了解ProcessFunction的状态(Flink-1.10)

欢迎访问我的GitHub

欢迎访问我的GitHub

Flink处理函数实战系列链接

关于ProcessFunction状态的疑惑

Flink的"状态"

官方demo

先反思为何会有上述疑惑

跟踪源码

欢迎关注公众号：程序员欣宸

推荐阅读更多精彩内容