Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?
1)第一个数字:1 major version : 代表大版本更新,一般都会有一些 api 的变化,以及大的优化或是一些结构的改变;
2)第二个数字:6 minor version : 代表小版本更新,一般会新加 api,或者是对当前的 api 就行优化,或者是其他内容的更新,比如说 WEB UI 的更新等等;
3)第三个数字:0 patch version , 代表修复当前小版本存在的一些 bug,基本不会有任何 api 的改变和功能更新;记得有一个大神曾经说过,如果要切换 spark 版本的话,最好选 patch version 非 0 的版本,因为一般类似于 1.2.0, … 1.6.0 这样的版本是属于大更新的,有可能会有一些隐藏的 bug 或是不稳定性存在,所以最好选择 1.2.1, … 1.6.1 这样的版本。 通过版本号的解释说明,可以很容易了解到,spark2.1.1的发布时是针对大版本2.1做的一些bug修改,不会新增功能,也不会新增API,会比2.1.0版本更加稳定。
Spark为什么比mapreduce快?spark和mr的区别?spark和Mapreduce快?为什么快呢? 快在哪里呢?
https://www.jianshu.com/p/99253d54893d
Mapreduce和Spark的都是并行计算,那么他们有什么相同和区别
https://blog.csdn.net/weixin_43230682/article/details/105548049
spark sql又为什么比hive快呢?
https://blog.csdn.net/qq_19446965/article/details/112758881
Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?
https://my.oschina.net/134596/blog/3038149
spark工作机制?
https://blog.csdn.net/wendelee/article/details/107864584
Spark Job执行流程?spark的执行流程?简要描述Spark写数据的流程?
Spark Job执行流程 https://www.imooc.com/article/267183
spark的执行流程 https://www.jianshu.com/p/07302e679663
Spark写数据的流程 https://blog.csdn.net/weixin_39400271/article/details/99694379
spark的运行模式,wc的简单描述
运行模式 https://www.cnblogs.com/chong-zuo3322/p/12911934.html
wc的简单描述 https://www.cnblogs.com/asker009/p/11690442.html
画图,画Spark的工作模式,部署分布架构图
https://www.jianshu.com/p/ae9839140f71
画图,画图讲解spark工作流程。以及在集群上和各个角色的对应关系。
https://blog.csdn.net/ChillLitchi/article/details/107026919
Spark应用程序的执行过程是什么?spark的执行流程
https://www.cnblogs.com/ytwang/p/13722752.html
如何理解Standalone模式下,Spark资源分配是粗粒度的?
https://developer.aliyun.com/ask/256282
Spark on Mesos中,什么是粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?
https://developer.aliyun.com/ask/256083
Spark中standalone模式特点,有哪些优点和缺点?
1)特点:
(1)standalone是master/slave架构,集群由Master与Worker节点组成,程序通过与Master节点交互申请资源,Worker节点启动Executor运行;
(2)standalone调度模式使用FIFO调度方式;
(3)无依赖任何其他资源管理系统,Master负责管理集群资源
2)优点:
(1)部署简单;
(2)不依赖其他资源管理系统。
3)缺点:
(1)默认每个应用程序会独占所有可用节点的资源,当然可以通过spark.cores.max来决定一个应用可以申请的CPU cores个数;
(2)可能有单点故障,需要自己配置master HA
Spark的优化怎么做?Spark做过哪些优化,(优化说完会问你为什么?原理是什么?)
https://jingyan.baidu.com/article/6fb756ecd88057651858fb80.html
Spark性能优化主要有哪些手段?
https://www.cnblogs.com/skaarl/p/13899458.html
简要描述Spark分布式集群搭建的步骤?
https://blog.csdn.net/ZFX008/article/details/108219091
spark-submit的时候如何引入外部jar包
http://www.k6k4.com/simple_question/qshow/aaqxwzpbp1540220788463
Spark提交你的jar包时所用的命令是什么?
spark-submit
你如何从Kafka中获取数据?
https://ask.naixuejiaoyu.com/question/321
Spark对接kafka的两种方式
https://blog.csdn.net/weixin_43854618/article/details/107703387
SS对接Kafka两种整合方式的区别
https://blog.csdn.net/weixin_43854618/article/details/107703387
SS中如何实现精准一次消费
https://blog.csdn.net/weixin_41347419/article/details/115741633
Spark 中Master 实现HA有哪些方式 ?
https://blog.csdn.net/u013771019/article/details/106815986/
Spark master使用zookeeper进行HA,有哪些元数据保存在Zookeeper?
https://my.oschina.net/134596/blog/3038161
Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?
因为程序在运行之前,已经申请过资源了,driver和Executors通讯,不需要和master进行通讯的
Spark master如何通过Zookeeper做HA?
https://blog.csdn.net/love__live1/article/details/86606326
如何配置spark master的HA?
https://www.cnblogs.com/xupccc/p/9544603.html
对于Spark中的数据倾斜问题你有什么好的方案?
https://blog.csdn.net/m0_49834705/article/details/114218898
Spark使用parquet文件存储格式能带来哪些好处?
Spark累加器有哪些特点?
https://blog.csdn.net/qq_40337086/article/details/107003817
如何在一个不确定的数据规模的范围内进行排序?
https://ask.naixuejiaoyu.com/question/337
Spark如何自定义partitioner分区器?
https://www.cnblogs.com/Gxiaobai/p/11073381.html
spark hashParitioner的弊端是什么?
https://ask.naixuejiaoyu.com/question/336
spark读取数据,是几个Partition呢?
RangePartitioner分区的原理?
https://ask.naixuejiaoyu.com/question/338
rangePartioner分区器特点?
rangePartioner尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,一个分区中的元素肯定都是比另一个分区内的元素小或者大;但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。RangePartitioner作用:将一定范围内的数映射到某一个分区内,在实现中,分界的算法尤为重要。算法对应的函数是rangeBounds
介绍parition和block有什么关联关系?
https://www.cnblogs.com/itboys/p/9779128.html
什么是二次排序,你是如何用spark实现二次排序的?(互联网公司常面)
https://blog.csdn.net/Poolweet_/article/details/108483148
如何使用Spark解决TopN问题?(互联网公司常面)
https://www.cnblogs.com/yurunmiao/p/4898672.html
如何使用Spark解决分组排序问题?(互联网公司常面)
https://www.it610.com/article/1290035562081755136.htm
Hadoop中,Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子?
相当于spark中的map算子和reduceByKey算子,当然还是有点区别的,MR会自动进行排序的,spark要看你用的是什么partitioner
Spark shell启动时会启动derby?
spark shell启动会启动spark sql,spark sql默认使用derby保存元数据,但是尽量不要用derby,它是单实例,不利于开发。会在本地生成一个文件metastore_db,如果启动报错,就把那个文件给删了 ,derby数据库是单实例,不能支持多个用户同时操作,尽量避免使用
介绍一下你对Unified Memory Management内存管理模型的理解?
https://developer.aliyun.com/ask/256318
hbase预分区个数和spark过程中的reduce个数相同么
和spark的map个数相同,reduce个数如果没有设置和reduce前的map数相同。
sparksql常用哪些算子
https://blog.csdn.net/qq_32595075/article/details/79918644
Spark中Lineage的基本原理
https://cloud.tencent.com/developer/news/590420
使用shell和scala代码实现WordCount?
shell https://www.cnblogs.com/wpbk007/p/12010345.html
scala https://blog.csdn.net/weixin_42312342/article/details/90415448
Spark RDD 和 MR2的区别
1)mr2只有2个阶段,数据需要大量访问磁盘,数据来源相对单一 ,spark RDD ,可以无数个阶段进行迭代计算,数据来源非常丰富,数据落地介质也非常丰富spark计算基于内存;
2)MapReduce2需要频繁操作磁盘IO,需要大家明确的是如果是SparkRDD的话,你要知道每一种数据来源对应的是什么,RDD从数据源加载数据,将数据放到不同的partition针对这些partition中的数据进行迭代式计算计算完成之后,落地到不同的介质当中。
Spark读取hdfs上的文件,然后count有多少行的操作,你可以说说过程吗。那这个count是在内存中,还是磁盘中计算的呢?
1)从任务执行的角度分析执行过程
driver生成逻辑执行计划->driver生成物理执行计划->driver任务调度->executor任务执行 。
四个阶段:逻辑执行计划-》成物理执行计划-》任务调度-》任务执行
四个对象:driver-》DAGScheduler-》TaskScheduler-》Executor
两种模式:任务解析、优化和提交单机模式-》任务执行分布式模式
2)计算过程发生在内存
怎么用spark做数据清洗
https://blog.csdn.net/qq_43414681/article/details/115918869
spark怎么整合hive?
https://blog.csdn.net/weixin_42419342/article/details/108922410
hbase region多大会分区,spark读取hbase数据是如何划分partition的?
region超过了hbase.hregion.max.filesize这个参数配置的大小就会自动裂分,默认值是1G。
默认情况下,hbase有多少个region,Spark读取时就会有多少个partition
BlockManager怎么管理硬盘和内存的?
https://www.cnblogs.com/hdc520/p/13677806.html
列举Spark中常见的端口,分别有什么功能?
https://www.cnblogs.com/zfy0098/p/11010236.html
Spark官网中,你常用哪几个模块?
集群上 nodemanager和ResourceManager的数量关系?
看过源码? 你熟悉哪几个部分的源码?
spark 如何防止内存溢出 ?
https://blog.csdn.net/xiaoyaGrace/article/details/102821104
spark的内存模型?
https://blog.csdn.net/hxcaifly/article/details/85855446
https://www.iteblog.com/archives/2342.html
谈谈你对Spark内存管理的认识?
https://www.cnblogs.com/wzj4858/p/8204282.html
spark的通信方式,Spark如何处理结构化数据,Spark如何处理非结构化数据?
通信方式 https://www.jianshu.com/p/b85d096baa94
Spark如何处理结构化数据 Spark SQL是处理结构化的数据,参考https://blog.csdn.net/qq_44973159/article/details/106325796
Spark如何处理非结构化数据 可以先转成结构化数据进行处理,当然也可以直接在非结构化数据上拿取相应的数据
对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里?
优势 Spark是基于内容的计算,快速,易用(Scala)
参考 https://blog.csdn.net/master_hunter/article/details/114823065
对于算法是否进行过自主的研究设计?
没有