10. 大数据基础

1. shuffle 过程

https://blog.csdn.net/zpf336/article/details/80931629
spark的shuffle过程
https://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html

2. Spark为什么快?

这里的快一般是指相对mapreduce快,所以这里的为什么主要是和 mapreduce 进行对比。
https://www.zhihu.com/question/31930662

3. Spark提交任务流程(Spark on yarn运行的全流程)

  • 首先通过spark-submit向yarn提交Application应用,ResouceManager选择一个NodeManager 为该Application启动ApplicationMaster。
  • ApplicationMaster向ResouceManager注册和申请Container,ResouceManager收到ApplicationMaster的请求后,使用自己的资源调度算法,在不同的nodemanager为Application启动多个Executor.
  • 多个Executor启动之后,会反向注册到ApplicationMaster;随后ApplicationMaster启动driver(driver是AM进程中的线程)
  • driver初始化Sparkcontext,Sparkcontext是用户通向spark集群的入口,在初始化sparkContext的同时,会初始化DAGScheduler、TaskScheduler。
  • 接下里来将所遇到对RDD的所有操作形成一个DAG有向无循环图,每执行到action操作就会创建一个job到DAGScheduler中,而job又根据RDD的依赖关系划分成多个stage,每个stage根据最后一个RDD的分区数目来创建相应数量的task,这些task形成一个taskset
  • DAGScheduler将taskset送到taskscheduler中,然后taskscheduler对task进行序列化,封装到launchTask中,最后将launchTask发送到指定的executor中。
  • executor接收到了TaskScheduler发送过来的launchTask 时,会对launchTask 进行反序列化,封装到一个TaskRunner 中,然后从executor线程池中获取一个线程来执行指定的任务.
  • 最终当所有的task任务完成之后,整个application执行完成,关闭sparkContext对象。

参考:

  1. https://www.cnblogs.com/hdc520/p/12588379.html
  2. https://www.jianshu.com/p/765bed108036

4. 宽依赖和窄依赖

宽依赖:一个父RDD的分区对应多个子RDD的分区
窄依赖:一个父RDD的分区对应一个子RDD的分区
宽窄依赖主要影响 stage 的划分,shuffle 前的步骤为一个 stage。

5. Spark 容错机制

容错一般有两种方式:数据检查点(checkpoint)、记录更新。spark 采用记录更新的方式。但是 spark 只支持粗粒度(单个分区的单次操作)记录,也即 spark 会记录 RDD 的变换序列(每个RDD是如何由其他RDD变换过来的以及如何重建某个分区数据的信息),当数据发生丢失,就根据变换序列来进行恢复。这种方式又称为血统容错。

6. Spark 中 transfrom 和 action 的区别

transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD、从RDD生成一个新的RDD等;action是得到一个值,或者一个结果(直接将RDD cache到内存中)。所有的transformation都是采用的懒策略:如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。

7. RDD、DataFrame、DataSet 异同

https://www.jianshu.com/p/6501eb74c8e1

8. Spark 广播变量及其原理

当在Executor端用到了Driver变量,若不使用广播变量,则在每个Executor中有多少个task就有多少个Driver端变量副本。如果使用广播变量在每个Executor端中只有一份Driver端的变量副本。广播变量在Driver定义,在Exector端不可改变,在Executor端不能定义。实际上就是Executor端用到了driver端的变量。使用了广播变量,实际上就是为了减少executor端的备份,最终减少executor端的内存。

  • 广播变量的创建:广播变量的创建发生在Driver端,当调用b=sc.broadcast(rdd)来创建广播变量时,会把该变量的数据切分成多个数据块,保存到driver端的BlockManger中,使用的存储级别是:MEMORY_AND_DISK_SER。广播变量的值必须是本地的可序列化的值,不能是RDD。广播变量一旦创建就不应该再修改,这样可以保证所以的worker节点上的值是一致的。
  • 广播变量的读取:b.value(),广播变量的读取也是懒加载的,此时广播变量的数据只在Driver端存在,只有在Executor端需要获取广播变量时才会去加载。加载后,首先从Executor本地的BlockManager中读取广播变量的数据,若存在就直接获取。executor的BlockManager除了从driver上拉取,也可能从其他节点的BlockManager上拉取变量副本,距离越近越好。

9. Spark 优化

https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

10. Spark 数据倾斜处理方法

https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

11. hive sql怎么转换成的mr

https://blog.csdn.net/zjjcchina/article/details/130802360
https://blog.51cto.com/u_16175441/7339327

  1. 解析SQL语句,生成抽象语法树
  2. 语义分析,检查语法,生成查询的逻辑计划
  3. 逻辑优化
  4. 物理优化,将逻辑计划转化为物理计划,即将逻辑操作映射为mapreduce任务
  5. 代码生成,生成查询的java代码
  6. 任务执行,将mapreduce任务提交hadoop执行

12. java内存模型

https://javabetter.cn/thread/jmm.html

13. java list

https://cloud.tencent.com/developer/article/2043760
https://blog.51cto.com/u_14731/6999704
https://mp.weixin.qq.com/s/bCraj7gn8C1hD4_6GxOsJA

14. 进程和线程

https://javabetter.cn/thread/why-need-thread.html

进程:进程是对运行时程序的封装,是系统进行资源调度和分配的的基本单位,实现了操作系统的并发
线程:线程是进程的子任务,是CPU调度和分派的基本单位,是操作系统可识别的最小执行和调度单位

区别和联系
  1. 一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程。线程依赖于进程而存在。

  2. 进程在执行过程中拥有独立的内存单元,而多个线程共享进程的内存。(资源分配给进程,同一进程的所有线程共享该进程的所有资源。同一进程中的多个线程共享代码段(代码和常量),数据段(全局变量和静态变量),扩展段(堆存储)。但是每个线程拥有自己的栈段,栈段又叫运行时段,用来存放所有局部变量和临时变量。)

  3. 进程是资源分配的最小单位,线程是CPU调度的最小单位;

  4. 系统开销: 由于在创建或撤消进程时,系统都要为之分配或回收资源,如内存空间、I/o设备等。因此,操作系统所付出的开销将显著地大于在创建或撤消线程时的开销。类似地,在进行进程切换时,涉及到整个当前进程CPU环境的保存以及新被调度运行的进程的CPU环境的设置。而线程切换只须保存和设置少量寄存器的内容,并不涉及存储器管理方面的操作。可见,进程切换的开销也远大于线程切换的开销

  5. 通信:由于同一进程中的多个线程具有相同的地址空间,致使它们之间的同步和通信的实现,也变得比较容易。进程间通信IPC,线程间可以直接读写进程数据段(如全局变量)来进行通信——需要进程同步和互斥手段的辅助,以保证数据的一致性。在有的系统中,线程的切换、同步和通信都无须操作系统内核的干预

  6. 进程编程调试简单可靠性高,但是创建销毁开销大;线程正相反,开销小,切换速度快,但是编程调试相对复杂。

  7. 进程间不会相互影响 ;线程一个线程挂掉将导致整个进程挂掉,所以多进程要比多线程健壮。

  8. 进程适应于多核、多机分布;线程适用于多核。

15. hive sql 的正确执行顺序

https://cloud.tencent.com/developer/article/1854237

16. hive中groupby和distinct区别以及性能比较

都会在map阶段count,但reduce阶段,distinct只有一个, group by 可以有多个进行并行聚合,所以group by会快
https://www.cnblogs.com/wqbin/p/11050970.html

17. 一文彻底搞懂Hive的数据存储与压缩

ORC file
自身支持两种压缩ZLIB和SNAPPY,其中ZLIB压缩率比较高,常用于数据仓库的ODS层,SNAPPY压缩和解压的速度比较快,常用于数据仓库的DW层
https://www.cnblogs.com/data-magnifier/p/15312519.html

参考

  1. https://www.cnblogs.com/hdc520/p/12588379.html
  2. https://runzhliu.github.io/posts/spark-%E9%9D%A2%E8%AF%95%E9%A2%98%E7%B3%BB%E5%88%97-1/
  3. https://runzhliu.github.io/posts/spark-%E9%9D%A2%E8%AF%95%E9%A2%98%E7%B3%BB%E5%88%97-2/
  4. https://blog.csdn.net/zpf336/article/details/80931629
  5. https://blog.csdn.net/zhuzuwei/article/details/104446388
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343