sparkStreaming之checkPoint的作用解析
checkPoint的几大作用:
第一:如遇突发情况,导致sparkStreaming进程停止,从新启动sparkStreaming时,用于恢复历史数据。
第二:sparkStreaming对接kafka时,用于维护kafka偏移量,即所谓的kafka自己维护偏移量
第三:遇到mapWithState,updeStatebykey等全局聚合类算子时,需要到chekPoint中加载历史状态的数据。类似于缓存机制,缓存历史计算数据结果,可以使当前数据与历史数据进行相关全局计算操作。
为保障数据高可用的可靠性,checkPoint的数据存储路径大多数为hdfs中