大数据开发中Spark架构运行详解及其优势详解？

一、Spark基本概念

spark是一种分布式的计算框架。类似于大数据开发中Hadoop生态圈的MapReduce，计算思想和MR非常相似，两者都是分而治之的思想，但使用率要比MR高很多。

在学习Spark运行架构之前，我们有必须要先了解Spark中几个基本概念。

1、Application(应用程序)：是指我们编写的Spark应用程序，包含驱动程序(Driver)和分布在及群众多个节点上运行的Executor代码，在执行过程中由一个或多个job组成。

2、Driver(驱动程序)：Spark中的Driver即运行Application的main方法，并且创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责与Cluster Manager通信，进行资源的申请、任务的分配和监控。当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常用SparkContext代表Driver。

3、Cluster Manager(集群资源管理器)：是指在集群上获取资源的外部服务，目前常用的有以下几种：

(1)standalone：Spark自带的资源管理，由Master负责资源的管理和调度。

(2)Hadoop YARN：由YARN中的ResourceManager负责资源的管理。

(3)Mesos：由Mesos中的Mesos Master负责资源的管理。

4、Worker(工作节点)：集群中任何可以运行Application代码的节点，类似于YARN中的NodeManager节点。在Standalone模式中指的是通过Slave文件配置的Worker节点。

5、Master：Spark Standalone模式下的主节点，负责管理和分配集群资源来运行Spark Application。

6、Executor：Application运行在Worker节点上的一个进程，该进程负责运行Task，并负责将数据存在内存或者磁盘上，每个Application都有各自独立的一批Executor。

二、Spark运行架构

先上一张Spark运行架构原理图吧。

其执行流程：

1、使用spark-sbumit提交我们的应用程序，通过反射的方式，创建和构造出一个Driver进程。

2、Driver进程(可以理解为有main方法的那个类)开始从头到尾执行我们写的代码，第一行即创建SparkConf和SparkContext对象。SparkContext在初始化的时候，会构造出DAGScheduler和TaskScheduler。

3、TaskScheduler通过它自己对应的进程去连接Master，并负责向Master注册Application。

4、Master接收到注册请求时候，会通过自己的资源调度算法，在Spark集群的Worker上，为这个Application启动多个Executor。

5、Worker为Application启动Executor，Executor启动之后，自己会反向注册到TaskScheduler上去。

6、至此整个初始化工作完成，SparkContext继续执行我们的代码。每遇到一个action操作，就会形成一个job，然后将该job提交到DAGScheduler。

7、DAGScheduler根据State划分算法，将一个job划分成多个State，每个State就是一个TaskSet。并将该Taskset提交到TaskScheduler。

8、TaskScheduler会将TaskSet中的每一个Task提交到Executor执行。

9、Executor每接收到一个task，都会用TaskRunner来封装task，然后从线程池中取出一个线程来执行task。

10、所以，最后整个Spark应用程序的执行就是state分批次作为taskset提交到executor执行，每个task针对RDD的一个分区，执行我们定义的算子和函数。以此类推，直到所有操作执行完为止。

三、spark的优势

计算效率高

1、资源复用

2、粗粒度的资源调度

使用方便

1、支持使用多门语言来编写

2、提供了超过80多种方法来供我们使用

通用性强

1、Spark生态圈中的组件都是基于SparkCore封装起来的

适应性强

1、可以接受上百种数据源

2、可以运行在各种各样的资源调度框架上

经过上面简单的总结，相信大家对spark也已经有了一个初步的认识。

首先还是欢迎大家在阅读完之后评论、转发、收藏。想了解更多的大数据知识可以点击“了解更多”查看

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

大数据开发中Spark架构运行详解及其优势详解？

推荐阅读更多精彩内容