Spark三大数据结构

RDD: 弹性分布式数据集

RDD特点

数据集：RDD是spark中最常见的数据结构。RDD中不直接存储数据，只存储了数据的计算逻辑，只有当action算子被触发的时候，才会根据RDD中一层一层的依赖关系将数据取过来进行计算，最终得到计算结果。

分布式：数据的来源是分布式的，例如从hdfs中读取数据，数据可能存在不同的节点上。计算是分布式的，spark将计算任务发给可能位于不同节点上的executor上进行计算。最后数据的存储也是分布式的。

弹性：

1）血缘（依赖关系）：spark可以通过特殊的处理方式（checkpoint、cache、persist）来简化依赖关系。

2）计算：Spark的计算是基于内存的，但是也可以和磁盘进行灵活切换（内存不够了就读写磁盘），其中shuffle过程要溢写磁盘。

3）分区：Spark在创建默认分区以后，可以通过指定的算子来改变分区的数量，比如如果分区数量太少，则并行度不够，容易引起资源的浪费，这时候就可以扩大分区数。

4）容错*： Spark在执行计算时，如果发生了错误，需要进行容错重试处理。（一旦出错，可以尝试再一次将数据读过来进行再次处理）

RDD中的属性

1）分区

2）依赖关系（血缘）

3）分区器

4）优先位置（可能有也可能没有，优先位置是为了方便计算，即某个 task 计算节点与其输入数据的位置关系，但是如果外部数据来源是如mysql这样的和计算节点无关的，则可无）

5）计算函数

RDD算子

1）transformation 算子，转换算子，不实际进行计算，相当于包装类的概念，在原有的rdd上再套一层形成一个新的rdd。

2）action算子，行动算子，触发计算，即触发runJob

3）兼具以上两种特点的算子，如sortBy，即触发action进行了计算，又返回一个新的rdd

spark中的数量问题

1）Executor：默认为两个，可以通过提交应用的参数进行设定

2）Partition:：默认情况下，读取文件如果是hdfs，采用的是hadoop的切片规则，即有多少个切片就有多少个分区；如果是读取内存中的数据，则可以根据特定的算法进行设定(例如不指定的时候，就按最大核数来进行分区)；可以通过不同的算子来进行改变。默认情况下，多个阶段的场合，下一个阶段的分区数量取决于上一个一段最后的RDD的分区数，但是可以在响应的算子中进行修改。

3）Stage：1 （Resultstage，即真个应用本身是一个阶段）+ Shuffle依赖的数量（ShuffleMapStage）。划分Stage的目的就是为了任务执行的等待，因为Shuffle的过程需要落盘，即写到文件中，之所以这样是因为要等待所有的任务都做完，不然文件中的数据就不准确，影响下一步计算，

4）Task：原则上，一个分区就是一个任务，实际应用中可以动态地调整（改变分区）

广播变量：分布式只读共享变量

后两者应用的场景是，代码逻辑的执行是在不同的executor中，如果不同的executor想要对同一变量进行访问则要么将该变量发送到所有需要该变量的executor中，要不就使用广播变量对其进行广播使得不同的executor都可以访问。

累加器：分布式只写共享变量

同样的，如果不同的executor需要对计算结果进行累加操作则需要一个能共享的变量进行接收，spark提供一个分布式的只写的共享变量来接收各个executor的计算结果。

广播变量应用（是一个调优策略，使用其他方法也能实现但是性能有所牺牲）：

累加器应用方法：

累加器应用举例

最后编辑于：2020.05.23 10:14:55