大数据问答汇总

Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?

1)第一个数字:1 major version : 代表大版本更新,一般都会有一些 api 的变化,以及大的优化或是一些结构的改变;
2)第二个数字:6 minor version : 代表小版本更新,一般会新加 api,或者是对当前的 api 就行优化,或者是其他内容的更新,比如说 WEB UI 的更新等等;
3)第三个数字:0 patch version , 代表修复当前小版本存在的一些 bug,基本不会有任何 api 的改变和功能更新;记得有一个大神曾经说过,如果要切换 spark 版本的话,最好选 patch version 非 0 的版本,因为一般类似于 1.2.0, … 1.6.0 这样的版本是属于大更新的,有可能会有一些隐藏的 bug 或是不稳定性存在,所以最好选择 1.2.1, … 1.6.1 这样的版本。 通过版本号的解释说明,可以很容易了解到,spark2.1.1的发布时是针对大版本2.1做的一些bug修改,不会新增功能,也不会新增API,会比2.1.0版本更加稳定。

Spark为什么比mapreduce快?spark和mr的区别?spark和Mapreduce快?为什么快呢? 快在哪里呢?

https://www.jianshu.com/p/99253d54893d

Mapreduce和Spark的都是并行计算,那么他们有什么相同和区别

https://blog.csdn.net/weixin_43230682/article/details/105548049

spark sql又为什么比hive快呢?

https://blog.csdn.net/qq_19446965/article/details/112758881

Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?

https://my.oschina.net/134596/blog/3038149

spark工作机制?

https://blog.csdn.net/wendelee/article/details/107864584

Spark Job执行流程?spark的执行流程?简要描述Spark写数据的流程?

Spark Job执行流程 https://www.imooc.com/article/267183
spark的执行流程 https://www.jianshu.com/p/07302e679663
Spark写数据的流程 https://blog.csdn.net/weixin_39400271/article/details/99694379

spark的运行模式,wc的简单描述

运行模式 https://www.cnblogs.com/chong-zuo3322/p/12911934.html
wc的简单描述 https://www.cnblogs.com/asker009/p/11690442.html

画图,画Spark的工作模式,部署分布架构图

https://www.jianshu.com/p/ae9839140f71

画图,画图讲解spark工作流程。以及在集群上和各个角色的对应关系。

https://blog.csdn.net/ChillLitchi/article/details/107026919

Spark应用程序的执行过程是什么?spark的执行流程

https://www.cnblogs.com/ytwang/p/13722752.html

如何理解Standalone模式下,Spark资源分配是粗粒度的?

https://developer.aliyun.com/ask/256282

Spark on Mesos中,什么是粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?

https://developer.aliyun.com/ask/256083

Spark中standalone模式特点,有哪些优点和缺点?

1)特点:
(1)standalone是master/slave架构,集群由Master与Worker节点组成,程序通过与Master节点交互申请资源,Worker节点启动Executor运行;
(2)standalone调度模式使用FIFO调度方式;
(3)无依赖任何其他资源管理系统,Master负责管理集群资源
2)优点:
(1)部署简单;
(2)不依赖其他资源管理系统。
3)缺点:
(1)默认每个应用程序会独占所有可用节点的资源,当然可以通过spark.cores.max来决定一个应用可以申请的CPU cores个数;
(2)可能有单点故障,需要自己配置master HA

Spark的优化怎么做?Spark做过哪些优化,(优化说完会问你为什么?原理是什么?)

https://jingyan.baidu.com/article/6fb756ecd88057651858fb80.html

Spark性能优化主要有哪些手段?

https://www.cnblogs.com/skaarl/p/13899458.html

简要描述Spark分布式集群搭建的步骤?

https://blog.csdn.net/ZFX008/article/details/108219091

spark-submit的时候如何引入外部jar包

http://www.k6k4.com/simple_question/qshow/aaqxwzpbp1540220788463

Spark提交你的jar包时所用的命令是什么?

spark-submit

你如何从Kafka中获取数据?

https://ask.naixuejiaoyu.com/question/321

Spark对接kafka的两种方式

https://blog.csdn.net/weixin_43854618/article/details/107703387

SS对接Kafka两种整合方式的区别

https://blog.csdn.net/weixin_43854618/article/details/107703387

SS中如何实现精准一次消费

https://blog.csdn.net/weixin_41347419/article/details/115741633

Spark 中Master 实现HA有哪些方式 ?

https://blog.csdn.net/u013771019/article/details/106815986/

Spark master使用zookeeper进行HA,有哪些元数据保存在Zookeeper?

https://my.oschina.net/134596/blog/3038161

Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

因为程序在运行之前,已经申请过资源了,driver和Executors通讯,不需要和master进行通讯的

Spark master如何通过Zookeeper做HA?

https://blog.csdn.net/love__live1/article/details/86606326

如何配置spark master的HA?

https://www.cnblogs.com/xupccc/p/9544603.html

对于Spark中的数据倾斜问题你有什么好的方案?

https://blog.csdn.net/m0_49834705/article/details/114218898

Spark使用parquet文件存储格式能带来哪些好处?

https://www.jianshu.com/p/8fd4b48bf604?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

Spark累加器有哪些特点?

https://blog.csdn.net/qq_40337086/article/details/107003817

如何在一个不确定的数据规模的范围内进行排序?

https://ask.naixuejiaoyu.com/question/337

Spark如何自定义partitioner分区器?

https://www.cnblogs.com/Gxiaobai/p/11073381.html

spark hashParitioner的弊端是什么?

https://ask.naixuejiaoyu.com/question/336

spark读取数据,是几个Partition呢?

RangePartitioner分区的原理?

https://ask.naixuejiaoyu.com/question/338

rangePartioner分区器特点?

rangePartioner尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,一个分区中的元素肯定都是比另一个分区内的元素小或者大;但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。RangePartitioner作用:将一定范围内的数映射到某一个分区内,在实现中,分界的算法尤为重要。算法对应的函数是rangeBounds

介绍parition和block有什么关联关系?

https://www.cnblogs.com/itboys/p/9779128.html

什么是二次排序,你是如何用spark实现二次排序的?(互联网公司常面)

https://blog.csdn.net/Poolweet_/article/details/108483148

如何使用Spark解决TopN问题?(互联网公司常面)

https://www.cnblogs.com/yurunmiao/p/4898672.html

如何使用Spark解决分组排序问题?(互联网公司常面)

https://www.it610.com/article/1290035562081755136.htm

Hadoop中,Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子?

相当于spark中的map算子和reduceByKey算子,当然还是有点区别的,MR会自动进行排序的,spark要看你用的是什么partitioner

Spark shell启动时会启动derby?

spark shell启动会启动spark sql,spark sql默认使用derby保存元数据,但是尽量不要用derby,它是单实例,不利于开发。会在本地生成一个文件metastore_db,如果启动报错,就把那个文件给删了 ,derby数据库是单实例,不能支持多个用户同时操作,尽量避免使用

介绍一下你对Unified Memory Management内存管理模型的理解?

https://developer.aliyun.com/ask/256318

hbase预分区个数和spark过程中的reduce个数相同么

和spark的map个数相同,reduce个数如果没有设置和reduce前的map数相同。

sparksql常用哪些算子

https://blog.csdn.net/qq_32595075/article/details/79918644

Spark中Lineage的基本原理

https://cloud.tencent.com/developer/news/590420

使用shell和scala代码实现WordCount?

shell https://www.cnblogs.com/wpbk007/p/12010345.html
scala https://blog.csdn.net/weixin_42312342/article/details/90415448

Spark RDD 和 MR2的区别

1)mr2只有2个阶段,数据需要大量访问磁盘,数据来源相对单一 ,spark RDD ,可以无数个阶段进行迭代计算,数据来源非常丰富,数据落地介质也非常丰富spark计算基于内存;
2)MapReduce2需要频繁操作磁盘IO,需要大家明确的是如果是SparkRDD的话,你要知道每一种数据来源对应的是什么,RDD从数据源加载数据,将数据放到不同的partition针对这些partition中的数据进行迭代式计算计算完成之后,落地到不同的介质当中。

Spark读取hdfs上的文件,然后count有多少行的操作,你可以说说过程吗。那这个count是在内存中,还是磁盘中计算的呢?

1)从任务执行的角度分析执行过程
driver生成逻辑执行计划->driver生成物理执行计划->driver任务调度->executor任务执行 。
四个阶段:逻辑执行计划-》成物理执行计划-》任务调度-》任务执行
四个对象:driver-》DAGScheduler-》TaskScheduler-》Executor
两种模式:任务解析、优化和提交单机模式-》任务执行分布式模式
2)计算过程发生在内存

怎么用spark做数据清洗

https://blog.csdn.net/qq_43414681/article/details/115918869

spark怎么整合hive?

https://blog.csdn.net/weixin_42419342/article/details/108922410

hbase region多大会分区,spark读取hbase数据是如何划分partition的?

region超过了hbase.hregion.max.filesize这个参数配置的大小就会自动裂分,默认值是1G。
默认情况下,hbase有多少个region,Spark读取时就会有多少个partition

BlockManager怎么管理硬盘和内存的?

https://www.cnblogs.com/hdc520/p/13677806.html

列举Spark中常见的端口,分别有什么功能?

https://www.cnblogs.com/zfy0098/p/11010236.html

Spark官网中,你常用哪几个模块?

集群上 nodemanager和ResourceManager的数量关系?

看过源码? 你熟悉哪几个部分的源码?


spark 如何防止内存溢出 ?

https://blog.csdn.net/xiaoyaGrace/article/details/102821104

spark的内存模型?

https://blog.csdn.net/hxcaifly/article/details/85855446
https://www.iteblog.com/archives/2342.html

谈谈你对Spark内存管理的认识?

https://www.cnblogs.com/wzj4858/p/8204282.html

spark的通信方式,Spark如何处理结构化数据,Spark如何处理非结构化数据?

通信方式 https://www.jianshu.com/p/b85d096baa94
Spark如何处理结构化数据 Spark SQL是处理结构化的数据,参考https://blog.csdn.net/qq_44973159/article/details/106325796
Spark如何处理非结构化数据 可以先转成结构化数据进行处理,当然也可以直接在非结构化数据上拿取相应的数据

对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里?

优势 Spark是基于内容的计算,快速,易用(Scala)
参考 https://blog.csdn.net/master_hunter/article/details/114823065

对于算法是否进行过自主的研究设计?

没有

简要描述你了解的一些数据挖掘算法与内容spark Streaming中对接的socket的缓存策略是什么?


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容