1. shuffle 过程
https://blog.csdn.net/zpf336/article/details/80931629
spark的shuffle过程
https://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html
2. Spark为什么快?
这里的快一般是指相对mapreduce
快,所以这里的为什么主要是和 mapreduce
进行对比。
https://www.zhihu.com/question/31930662
3. Spark提交任务流程(Spark on yarn运行的全流程)
- 首先通过spark-submit向yarn提交Application应用,ResouceManager选择一个NodeManager 为该Application启动ApplicationMaster。
- ApplicationMaster向ResouceManager注册和申请Container,ResouceManager收到ApplicationMaster的请求后,使用自己的资源调度算法,在不同的nodemanager为Application启动多个Executor.
- 多个Executor启动之后,会反向注册到ApplicationMaster;随后ApplicationMaster启动driver(driver是AM进程中的线程)
- driver初始化Sparkcontext,Sparkcontext是用户通向spark集群的入口,在初始化sparkContext的同时,会初始化DAGScheduler、TaskScheduler。
- 接下里来将所遇到对RDD的所有操作形成一个DAG有向无循环图,每执行到action操作就会创建一个job到DAGScheduler中,而job又根据RDD的依赖关系划分成多个stage,每个stage根据最后一个RDD的分区数目来创建相应数量的task,这些task形成一个taskset
- DAGScheduler将taskset送到taskscheduler中,然后taskscheduler对task进行序列化,封装到launchTask中,最后将launchTask发送到指定的executor中。
- executor接收到了TaskScheduler发送过来的launchTask 时,会对launchTask 进行反序列化,封装到一个TaskRunner 中,然后从executor线程池中获取一个线程来执行指定的任务.
- 最终当所有的task任务完成之后,整个application执行完成,关闭sparkContext对象。
参考:
4. 宽依赖和窄依赖
宽依赖:一个父RDD的分区对应多个子RDD的分区
窄依赖:一个父RDD的分区对应一个子RDD的分区
宽窄依赖主要影响 stage 的划分,shuffle 前的步骤为一个 stage。
5. Spark 容错机制
容错一般有两种方式:数据检查点(checkpoint)、记录更新。spark 采用记录更新的方式。但是 spark 只支持粗粒度(单个分区的单次操作)记录,也即 spark 会记录 RDD 的变换序列(每个RDD是如何由其他RDD变换过来的以及如何重建某个分区数据的信息),当数据发生丢失,就根据变换序列来进行恢复。这种方式又称为血统容错。
6. Spark 中 transfrom 和 action 的区别
transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD、从RDD生成一个新的RDD等;action是得到一个值,或者一个结果(直接将RDD cache到内存中)。所有的transformation都是采用的懒策略:如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。
7. RDD、DataFrame、DataSet 异同
https://www.jianshu.com/p/6501eb74c8e1
8. Spark 广播变量及其原理
当在Executor端用到了Driver变量,若不使用广播变量,则在每个Executor中有多少个task就有多少个Driver端变量副本。如果使用广播变量在每个Executor端中只有一份Driver端的变量副本。广播变量在Driver定义,在Exector端不可改变,在Executor端不能定义。实际上就是Executor端用到了driver端的变量。使用了广播变量,实际上就是为了减少executor端的备份,最终减少executor端的内存。
- 广播变量的创建:广播变量的创建发生在Driver端,当调用b=sc.broadcast(rdd)来创建广播变量时,会把该变量的数据切分成多个数据块,保存到driver端的BlockManger中,使用的存储级别是:MEMORY_AND_DISK_SER。广播变量的值必须是本地的可序列化的值,不能是RDD。广播变量一旦创建就不应该再修改,这样可以保证所以的worker节点上的值是一致的。
- 广播变量的读取:b.value(),广播变量的读取也是懒加载的,此时广播变量的数据只在Driver端存在,只有在Executor端需要获取广播变量时才会去加载。加载后,首先从Executor本地的BlockManager中读取广播变量的数据,若存在就直接获取。executor的BlockManager除了从driver上拉取,也可能从其他节点的BlockManager上拉取变量副本,距离越近越好。
9. Spark 优化
https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
10. Spark 数据倾斜处理方法
https://tech.meituan.com/2016/05/12/spark-tuning-pro.html
11. hive sql怎么转换成的mr
https://blog.csdn.net/zjjcchina/article/details/130802360
https://blog.51cto.com/u_16175441/7339327
- 解析SQL语句,生成抽象语法树
- 语义分析,检查语法,生成查询的逻辑计划
- 逻辑优化
- 物理优化,将逻辑计划转化为物理计划,即将逻辑操作映射为mapreduce任务
- 代码生成,生成查询的java代码
- 任务执行,将mapreduce任务提交hadoop执行
12. java内存模型
https://javabetter.cn/thread/jmm.html
13. java list
https://cloud.tencent.com/developer/article/2043760
https://blog.51cto.com/u_14731/6999704
https://mp.weixin.qq.com/s/bCraj7gn8C1hD4_6GxOsJA
14. 进程和线程
https://javabetter.cn/thread/why-need-thread.html
进程:进程是对运行时程序的封装,是系统进行资源调度和分配的的基本单位,实现了操作系统的并发
线程:线程是进程的子任务,是CPU调度和分派的基本单位,是操作系统可识别的最小执行和调度单位
区别和联系
一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程。线程依赖于进程而存在。
进程在执行过程中拥有独立的内存单元,而多个线程共享进程的内存。(资源分配给进程,同一进程的所有线程共享该进程的所有资源。同一进程中的多个线程共享代码段(代码和常量),数据段(全局变量和静态变量),扩展段(堆存储)。但是每个线程拥有自己的栈段,栈段又叫运行时段,用来存放所有局部变量和临时变量。)
进程是资源分配的最小单位,线程是CPU调度的最小单位;
系统开销: 由于在创建或撤消进程时,系统都要为之分配或回收资源,如内存空间、I/o设备等。因此,操作系统所付出的开销将显著地大于在创建或撤消线程时的开销。类似地,在进行进程切换时,涉及到整个当前进程CPU环境的保存以及新被调度运行的进程的CPU环境的设置。而线程切换只须保存和设置少量寄存器的内容,并不涉及存储器管理方面的操作。可见,进程切换的开销也远大于线程切换的开销。
通信:由于同一进程中的多个线程具有相同的地址空间,致使它们之间的同步和通信的实现,也变得比较容易。进程间通信IPC,线程间可以直接读写进程数据段(如全局变量)来进行通信——需要进程同步和互斥手段的辅助,以保证数据的一致性。在有的系统中,线程的切换、同步和通信都无须操作系统内核的干预
进程编程调试简单可靠性高,但是创建销毁开销大;线程正相反,开销小,切换速度快,但是编程调试相对复杂。
进程间不会相互影响 ;线程一个线程挂掉将导致整个进程挂掉,所以多进程要比多线程健壮。
进程适应于多核、多机分布;线程适用于多核。
15. hive sql 的正确执行顺序
https://cloud.tencent.com/developer/article/1854237
16. hive中groupby和distinct区别以及性能比较
都会在map阶段count,但reduce阶段,distinct只有一个, group by 可以有多个进行并行聚合,所以group by会快
https://www.cnblogs.com/wqbin/p/11050970.html
17. 一文彻底搞懂Hive的数据存储与压缩
ORC file
自身支持两种压缩ZLIB和SNAPPY,其中ZLIB压缩率比较高,常用于数据仓库的ODS层,SNAPPY压缩和解压的速度比较快,常用于数据仓库的DW层
https://www.cnblogs.com/data-magnifier/p/15312519.html
参考
- https://www.cnblogs.com/hdc520/p/12588379.html
- https://runzhliu.github.io/posts/spark-%E9%9D%A2%E8%AF%95%E9%A2%98%E7%B3%BB%E5%88%97-1/
- https://runzhliu.github.io/posts/spark-%E9%9D%A2%E8%AF%95%E9%A2%98%E7%B3%BB%E5%88%97-2/
- https://blog.csdn.net/zpf336/article/details/80931629
- https://blog.csdn.net/zhuzuwei/article/details/104446388