hadoop 学习笔记（3）-- YARN 简介

本部分主要是关于 YARN。Yarn 是在 hadoop 2 中引入的资源管理系统。用户代码并不会与其直接交互，但是许多分布式计算框架都是作为一个 Yarn 应用来运行的。

yarn applications

还有一些应用如 Pig，Hive，Crunch 等是运行在 MP，Spark 或 Tez 上的，不会与 Yarn 直接交互。

Yarn Application 运行

YARN 有两种 daemon 进程：

resource manager 每个集群一个，管理集群资源的使用
node manager 集群中每个 node 都有，启动和监控 containers。

通过 jcmd 可以看到这些 daemon 进程：

hadoop@millions-server:~$ jcmd
22256 org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode
22561 org.apache.hadoop.yarn.server.nodemanager.NodeManager
21973 org.apache.hadoop.hdfs.server.namenode.NameNode
22085 org.apache.hadoop.hdfs.server.datanode.DataNode
20141 sun.tools.jcmd.JCmd
22447 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager

Yarn 应用运行的过程可以用下图描述，容器请求可以表述为容器消耗的计算资源的量（主要包括 CPU 和内存）：

YARN 调度

当集群资源紧缺时，需要按照一些预定的策略来分配给不同的任务资源。有三种调度方式：

FIFO：
先进先出，但是在共享型集群中不合适
Capacity scheduler（hadoop 默认的）：
(1) 计算能力保证。支持多个队列，某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源，且所有提交到队列中的作业共享该队列中的资源。
(2) 灵活性。空闲资源会被分配给那些未达到资源使用上限的队列，当某个未达到资源的队列需要资源时，一旦出现空闲资源资源，便会分配给他们。
(3) 支持优先级。队列支持作业优先级调度（默认是FIFO）
(4) 多重租赁。综合考虑多种约束防止单个作业、用户或者队列独占队列或者集群中的资源。
(5) 基于资源的调度。支持资源密集型作业，允许作业使用的资源量高于默认值，进而可容纳不同资源需求的作业。不过，当前仅支持内存资源的调度。
Fair Scheduler
在多个 Job 间分配资源，如果只有一个 Job 则其享有全部资源，如果加入新的 Job，则资源在2个 Job 间分配。

Capacity Scheduler 的配置

对于 Capacity scheduler，会将 Job 提交到若干 Queue中，然后每个 Queue 是 FIFO 的，如果 Queue 中有超过一个 Job，并且有空闲资源，给这个 Queue 分配的资源是可以超过其预定的量的。

一个配置文件的示例（配置文件为 capacity-scheduler.xml），有层次的在各个队列之间分配资源比例：

 <property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>dev,prod</value>
    <description>
      The queues at the this level (root is the root queue).
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.prod.capacity</name>
    <value>40</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.dev.capacity</name>
    <value>60</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.dev.maximum-capacity</name>
    <value>75</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.science.capacity</name>
    <value>50</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.dev.eng.capacity</name>
    <value>50</value>
  </property>

详细的配置说明在这里官方文档。

在提交 Job 时，可以指定 Queue，对于 MapReduce，可以指定 property mapreduce.job.queuename。

Fair Scheuler 配置

Fair 调度也有 Queue 的概念，资源在 Queue 之间是公平分配的，对同一个 Queue 中的 Job，资源同样是均匀分配的。比如 2 个 Queue：Queue1 Queue2；Queue1 有 Job1，Queue2 有 Job2 以及 Job3，则 Job1 使用 50% 资源， Job2 和 Job3 各 25% 资源。

在 yarn-site.xml 中设置 yarn.resourcemanager.scheduler.class 可以修改默认的 scheduler：org.apache.yarn.server.resourcemanager.scheduler.fair.FairScheduler。

Fair Scheuler 的配置文件为 fair-scheduler（可以通过 yarn.scheduler.fair.allocation.file 修改）:

<?xml version="1.0"?>
<allocations>
  <defaultQueueSchedulingPolicy>fair</defaultQueueSchedulingPolicy>
  <queue name="prod">
    <weight>40</weight>
    <schedulingPolicy>fifo</schedulingPolicy>
  </queue>
  <queue name="dev">
    <queue name="eng">
    <queue name="science">
  </queue>
  <queuePlacementPolicy>
    <rule name="specified" create="false">
    <rule name="primaryGroup" create="false">
    <rule name="default" create="dev.eng">
  </queuePlacementPolicy>
</allocations>

defaultQueueSchedulingPolicy 默认为 fair，也可以指定为 FIFO 等。通过 weight 可以分配 Queue 之间分配资源的比例。更详细的配置细节见官方文档。

如何将 Job 放到指定的 Queue 中去由 queuePlacementPolicy 决定：对每一条 rule 逐一尝试。specified 指由应用自己指定 Queue 的名字，如果没有指定或指定的 Queue 不存在，则进入下一条；primaryGroup 指使用用户的 unix group 作为队列名称；最终默认的队列是 dev.eng，将会处理所有没有被处理的 Job。默认的策略是：

  <queuePlacementPolicy>
    <rule name="specified">
    <rule name="user">
  </queuePlacementPolicy>

抢占式

配置 property yarn.scheduler.fair.preemption 设置为 true 可以使 Job 抢占式的获取资源，而不用等别人释放。

延迟以本地运行

配置 property yarn.scheduler.capacity.node-locality-delay 会使 scheduler 尝试等待一段时间以获取本地执行的机会（本地执行就是在数据所在的 node 运行）。

DRF 主要资源 Fairness

默认情况下占用资源主要指内存，如果打开了 DRF，那么在总资源中占比多的将会成为所谓的 DRF，以其在总资源中的占比来评价其所需资源。比如需要集群 6% 的 cpu 和 3% 的内存，那么 cpu 将成为主要资源。

打开 DRF 的方式：

对于capacity scheduler，在 capacity-scheduler.xml 中设置 yarn.scheduler.capacity.resource-calculator 为 org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
对于 fair scheduler，在 allocation 文件里设置顶层元素 defaultQueueSchedulingPolicy 为 drf。

最后编辑于：2017.12.07 03:05:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345