Flink-Kafka 众所周知,Flink在很早的时候就通过Checkpointing提供了exactly-once的semantic,不过仅限于自身或者是从KafkaCo...
Java中线程的状态分为6种。 1.初始(NEW):新创建了一个线程对象,但还没有调用start()方法。 2.运行(RUNNABLE):Java线程中将就绪(ready)和...
链表与数组在数据结构的江湖上被并称为南数组、北链表,其江湖地位可见一斑 概念 链表作为最基础的通用存储结构,它的作用和数组是一样的,但存储数据的方式略有不同。数组需要预先获取...
最近面试蚂蚁金服一面的时候,和面试官聊项目问题的时候,发现我这边业务实现的top100场景好像没有实现exactly once语义,我们项目的offset是存储在zk中,...
exactly once指的是在处理数据的过程中,系统有很好的容错性(fault-tolerance),能够保证数据处理不重不丢,每一条数据仅被处理一次。Spark具备很好的...
在spark源码阅读之storage模块①中,描绘了Storage模块的整体框架是标准的master-slave框架:master用来管理slave的元数据信息,slave则...
Storage模块负责管理spark在计算过程中产生的数据,对用户来说,spark的编程面向的是RDD这种抽象的逻辑数据集,对RDD的转换和动作完成对数据运算逻辑的处理。而在...
在spark源码阅读之shuffle模块①中,介绍了spark版本shuffle的演化史,提到了主要的两个shuffle策略:HashBasedShuffle和SortedB...
我们在之前scheduler模块的分析中了解到,DAGScheduler划分stage的依据就是Shuffle Dependency,那么Shuffle是一个怎么样的过程呢?...
在spark源码阅读之scheduler模块①中,分析了DAGScheduler如何提交Job,并且将Job划分为stage提交给TaskScheduler,最后调用了Tas...
时间:2019-2-22 3:30 pm 面试官:我是你的面试官,感谢你参加面试。先做个自我介绍吧我:xxx面试官:说一下项目吧我:xxx面试官:你项目中用了Spark,是以...
报错如下: error: value foreach is not a member of java.util.List[String][ERROR] for (co...
本文基于Spark 1.6.3版本源码 整体概述 spark的调度模块可以说是非常有特色的模块设计,使用DAG(有向无环图)刻画spark任务的逻辑关系,将任务切分为多个st...
本文基于Spark 1.6.3源码,采用一步一步深入的方式来展开阅读,本文是为了纪录自己在阅读源码时候的思路,看完一遍真的很容易忘记,写一篇文章梳理一遍可以加深印象。 在sp...