YARN 组件ResourceManager、ContainerAllocator剖析

1. ResourceManager

在yarn中， ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个NodeManager的资源汇报信息，并根据这些信息把集群里的资源按照一定的策略分配给各个应用程序。

image.png

ResourceManager主要由以下几个部分组成：

用户交互

YARN分别针对普通用户、管理员和web提供了三种对外服务，分别对应ClientRMService、WebApp:

ClientRMService: ClientRMService是为普通用户提供的服务，它会处理来自客户端各种RPC请求，比如提交应用程序、终止应用程序，获取应用程序运行状态等。
AdminService : YARN为管理员提供了一套独立的服务接口，以防止大量的普通用户请求使管理员发送的管理命令饿死，管理员可通过这些接口管理集群，比如动态更新节点列表，更新ACL列表，更新队列信息等。
WebApp: 为了更加友好地展示集群资源使用情况和应用程序运行状态等信息，YARN对外提供了一个Web 界面.

NM管理

NMLivelinessMonitor：监控NM是否活着。如果一个NodeManager在一定时间（默认为10min）内未汇报心跳信息，则认为它死掉了，会将其从集群中移除。
NodesListManager：维护正常节点和异常节点列表，管理exlude（类似于黑名单）和inlude（类似于白名单）节点列表，这两个列表均是在配置文件中设置的，可以动态加载。
ResourceTrackerService：处理来自NodeManager的请求，主要包括两种请求：注册和心跳，其中，注册是NodeManager启动时发生的行为，请求包中包含节点ID，可用的资源上限等信息，而心跳是周期性行为，包含各个Container运行状态，运行的Application列表、节点健康状况

AM管理

AMLivelinessMonitor：监控AM是否活着，如果一个ApplicationMaster在一定时间（默认为10min）内未汇报心跳信息，则认为它死掉了。AM本身会被重新分配到另外一个节点上（用户可指定每个ApplicationMaster的尝试次数，默认是1次）执行。
ApplicationMasterLauncher：与NodeManager通信，要求它为某个应用程序启动ApplicationMaster。
ApplicationMasterService：处理来自ApplicationMaster的请求，主要包括两种请求：注册和心跳。其中，注册是ApplicationMaster启动时发生的行为，请求包中包含其所在节点，RPC端口号和tracking URL等信息。而心跳是周期性行为，包含请求资源的类型描述、待释放的Container列表等

Application管理

ApplicationACLsManager：管理应用程序访问权限，包含两部分权限：查看和修改，查看主要指查看应用程序基本信息，而修改则主要是修改应用程序优先级、杀死应用程序等。
RMAppManager：管理应用程序的启动和关闭。
ContainerAllocationExpirer： YARN不允许AM获得Container后长时间不对其使用，因为这会降低整个集群的利用率。当AM收到RM新分配的一个Container后，必须在一定的时间（默认为10min）内在对应的NM上启动该Container，否则，RM会回收该Container。

ResourceScheduler

ResourceScheduler是资源调度器，它按照一定的约束条件（比如队列容量限制等）将集群中的资源分配给各个应用程序，ResourceScheduler是一个插拔式模块，默认是FIFO实现，YARN还提供了Fair Scheduler和Capacity Scheduler两个多租户调度器。

2. ContainerAllocator

ContainerAllocator负责与ResourceManager通信，为作业申请资源。作业的每个任务资源需求可描述为四元组<Priority, hostname，capability，containers>，分别表示作业优先级、期望资源所在的host，资源量（这里暂时只说内存），container数目。比如：

<10, “node1”, “memory:1G”, 3>//优先级是一个正整数，优先级值越小，优先级越高
<2, “”, “memory:1G”, 20> //表示这样的资源可来自任意一个节点，即不考虑数据本地性

ContainerAllocator周期性通过心跳与ResourceManager通信，ResourceManager每次会返回已经分配的container列表，完成的container列表等信息。

ContainerAllocator工作流程

当用户提交作业之后，MRAppMaster会为之初始化，并创建一系列map task和reduce task，由于reduce task会依赖于map task的结果，所以reduce task会延后调度，在ContainerAllocator中，当map task数目完成一定比例（由mapreduce.job.reduce.slowstart.completedmaps指定，默认是0.05，即5%）且Reduce Task可允许占用的资源（Reduce Task可占用资源比由yarn.app.mapreduce.am.job.reduce.rampup.limit指定）能够折合成整数个任务时，才会调度Reduce Task。考虑到Map Task和Reduce Task之间的依赖关系，因此，它们之间的状态也是不一样的，对于Map Task而言，会依次转移到以下几个状态中：scheduled->assigned->completed，对于Reduce Task而言，则按照以下流程：pending->scheduled->assigned->completed
其中，pengding表示等待ContainerAllocator发送资源请求，scheduled表示已经将资源请求发送给RM，但还没有收到分配的资源，assigned是已经收到RM分配的资源。Reduce Task之所有多出一个pending，主要是为了根据Map Task情况调整Reduce Task状态（在pengding和scheduled中相互转移）。进一步说，这主要是为了防止Map Task饿死，因为在YARN中不再有map slot和reduce slot的概念（这两个概念从一定程度上减少了作业饿死的可能性）只有内存、CPU等真实的资源，需要由ApplicationMaster控制资源申请的顺序，以防止可能产生的作业饿死。此外，ContainerAllocator将所有任务划分成三类，分别是failed Map、Map和Reduce，并分别赋予它们优先级5、20和10，也就是说，当三种任务同时有资源需求是，会优先分配给failed map，然后是reduce，最后是map。

总结起来，ContainerAllocator工作流程如下：

步骤1 将所有map task的资源需求一次性发送给RM
步骤2 如果达到了Reduce task调度条件，则开始为Reduce Task申请资源。
步骤3 如果任务运行失败，则会重新为该任务申请资源。
步骤4 如果一个节点失败的任务数目过多，则会撤销对该节点的所有资源申请请求。

ContainerAllocator类图

ContainerAllocator实际上是一接口，它只定义了三个事件：CONTAINER_REQ,，CONTAINER_DEALLOCATE和CONTAINER_FAILED，分别表示请求container，释放container和container运行失败。
ContainerAllocator的实现是RMContainerAllocator，它只接收和处理ContainerAllocator接口中定义的三种事件，它的运行是这三种事件驱动的。

image.png

RMContainerAllocator中最核心的框架是维护了一个心跳信息，在RMCommunicator类中实现如下：

while (!stopped.get() && !Thread.currentThread().isInterrupted()) {
  try {
    Thread.sleep(rmPollInterval);
    try {
      heartbeat();
     } catch (YarnException e) {
      LOG.error("Error communicating with RM: " + e.getMessage() , e);
      return;
    } catch (Exception e) {
      LOG.error("ERROR IN CONTACTING RM. ", e);
    }
  } catch (InterruptedException e) {
    LOG.warn("Allocated thread interrupted. Returning.");
    return;
  }
}

protected synchronized void heartbeat() throws Exception {
    LOG.info("Before Scheduling: " + getStat());
    List<Container> allocatedContainers = getResources();
    LOG.info("After Scheduling: " + getStat());
    if (allocatedContainers.size() > 0) {
      LOG.info("Before Assign: " + getStat());
      scheduledRequests.assign(allocatedContainers);
      LOG.info("After Assign: " + getStat());
    }
    ……
  }

其中，getResources()函数用于向RM发送心跳信息，并处理心跳应答。需要注意的是，有些情况下，心跳信息中并不包含新的资源请求信息，即空的心跳信息，这有以下几个作用

周期性发送心跳，告诉RM自己还活着。
周期性询问RM，以获取新分配的资源和各个container运行状况。

assign()函数是将收到的container分配给某个任务，如果这个container无法分配下去（比如内存空间不够），则是在下次心跳中通知RM释放该container，如果container可以分下去，则会释放对应任务的其他资源请求，同时会向TaskAttempt发送一个TA_ASSIGNED事件，以通知ContainerLauncher启动container。

推测执行机制

推测执行（Speculative Execution）是指在分布式集群环境下，因为程序bug、负载不均衡或者资源分布不均等原因，造成同一个job的多个task的执行速度不一致，有的task运行速度明显慢于其他task，（比如：一个job的某个task进度只有10%，其他所有task已经执行完毕），这些task拖慢了作业的整体执行进度，为了避免这种情况发生，hadoop会为该task启动备份任务，让该speculative task和原始task同时处理一份数据，哪个先运行完，则将谁的结果作为最终结果。

推测执行优化机制采用了典型的以空间换时间的优化策略，它同时启动多个相同task处理相同的数据块，哪个完成的早，则采用哪个task的结果，这样可防止拖后腿Task任务出现，进而提高作业计算速度，但是，这样却会占用更多的资源。设计合理的推测执行机制可在多用少量资源情况下，减少大作业的计算时间。

YARN中采用的算法

当决定一个任务是否可以启动备份任务时，采用了下面的计算方法：
总是取speculationValue值最大的任务并为之启动备份任务，speculationValue计算方法为：
speculationValue= estimatedEndTime – estimatedReplacementEndTime

其中，estimatedEndTime是通过预测算法推测的该任务的最终完成时刻，计算方法为：
estimatedEndTime = estimatedRunTime + taskAttemptStartTime

其中，taskAttemptStartTime为该任务的启动时间，而estimatedRunTime为推测出来的任务运行时间，计算方法如下：

estimatedRunTime= (timestamp – start) / Math.max(0.0001, progress)
其中，timestamp为当前时刻，而start为任务开始运行时间，（timestamp-start）表示已经运行时间，progress为任务运行进度（0.0~1.0）。

estimatedReplacementEndTime含义为：如果此刻启动该任务，（可推测出来的）任务最终可能的完成时刻。很明显，如果estimatedReplacementEndTime大于estimatedEndTime，则没必要启动备份任务，因为即使启动了，它的完成时刻也会大于当前正在运行任务的完成时刻，只有当estimatedReplacementEndTime小于estimatedEndTime时，才有必要启动备份任务。而MRv2总是选择speculationValue值最大的任务并为之启动备份任务，且启动备份任务之前需检查是否满足以下条件：

每个任务最多只能有一个备份任务
已经完成的任务数目比例不小于MINIMUM_COMPLETE_PROPORTION_TO_SPECULATE（0.05，即5%），只有这样，才能有足够的历史信息估算estimatedReplacementEndTime

estimatedReplacementEndTime计算过方法为：{当前时刻}+{已经成功运行完成的任务所使用的平均运行时间}。

简单提炼一下核心思想：在某一时刻，判断一个任务是否拖后腿或者是否是值得为其运行备份任务时，则首先假设为其启动一个备份任务，那我们估算一下它的完成时间estimatedReplacementEndTime，同样，如果按照此刻该任务的计算速度，我们可以估算一下该任务最有可能的完成时间estimatedEndTime，如果estimatedEndTime与estimatedReplacementEndTime之差越大，则表明为该任务启动备份任务的价值越大。

Speculator是一个服务，它由DefaultSpeculator实现，DefaultSpeculator每隔一段事件会扫描一次所有正在运行的任务，如果一个任务可以启动备份任务，则会向Task发出一个T_ADD_SPEC_ATTEMPT事件，以启动另外一个任务实例。

最后编辑于：2019.06.02 12:54:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342