Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考 - 简书
http://www.jianshu.com/p/e3ab39e61cc7
RDD的三个问题
1.RDD到底是怎么生成的
2.具体执行的时候,是否和基于Spark Core上的RDD有所不同,runtime级别的
3.运行之后我们对RDD如何处理。会随batch duration不断的产生RDD,内存无法完全容纳这些对象。
每个batch
duration产生的作业执行完RDD之后怎么对以有的RDD进行管理是一个问题。
RDD生成的全生命周期:
ForEachDStream不一定会触发job的执行,会触发job产生,但job真正产生是由timer定时器产生的。
对DStream进行操作其实就是对RDD进行操作,是因为DStream就是一套RDD的模板,后面的DStream与前面的DStream有依赖关系。因为从后往前依赖所以可以推出前面的RDD(回溯)
文/阳光男孩spark(简书作者)
原文链接:http://www.jianshu.com/p/e3ab39e61cc7
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。