Resilient Distributed Datasets
[rɪ'zɪlɪənt] 准确翻译为 容错的 并行的 数据结构 而不是弹性分布式数据集合
RDD提供了丰富的集合操作函数,来有别于hadoop中单调的mapreduce函数。
RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。例如map操作会产生narrow dependency,而join操作则产生wide dependency。
RDD是粗粒度数据结构,每一次操作都会生成一个新的RDD,在RDD之间就会形成一个链表关系的前后依赖关系。