本部分主要是关于 YARN。Yarn 是在 hadoop 2 中引入的资源管理系统。用户代码并不会与其直接交互,但是许多分布式计算框架都是作为一个 Yarn 应用来运行的。
还有一些应用如 Pig,Hive,Crunch 等是运行在 MP,Spark 或 Tez 上的,不会与 Yarn 直接交互。
Yarn Application 运行
YARN 有两种 daemon 进程:
- resource manager 每个集群一个,管理集群资源的使用
- node manager 集群中每个 node 都有,启动和监控 containers。
通过 jcmd 可以看到这些 daemon 进程:
hadoop@millions-server:~$ jcmd
22256 org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode
22561 org.apache.hadoop.yarn.server.nodemanager.NodeManager
21973 org.apache.hadoop.hdfs.server.namenode.NameNode
22085 org.apache.hadoop.hdfs.server.datanode.DataNode
20141 sun.tools.jcmd.JCmd
22447 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager
Yarn 应用运行的过程可以用下图描述,容器请求可以表述为容器消耗的计算资源的量(主要包括 CPU 和内存):
YARN 调度
当集群资源紧缺时,需要按照一些预定的策略来分配给不同的任务资源。有三种调度方式:
- FIFO:
先进先出,但是在共享型集群中不合适 - Capacity scheduler(hadoop 默认的):
(1) 计算能力保证。支持多个队列,某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源,且所有提交到队列中的作业共享该队列中的资源。
(2) 灵活性。空闲资源会被分配给那些未达到资源使用上限的队列,当某个未达到资源的队列需要资源时,一旦出现空闲资源资源,便会分配给他们。
(3) 支持优先级。队列支持作业优先级调度(默认是FIFO)
(4) 多重租赁。综合考虑多种约束防止单个作业、用户或者队列独占队列或者集群中的资源。
(5) 基于资源的调度。 支持资源密集型作业,允许作业使用的资源量高于默认值,进而可容纳不同资源需求的作业。不过,当前仅支持内存资源的调度。 - Fair Scheduler
在多个 Job 间分配资源,如果只有一个 Job 则其享有全部资源,如果加入新的 Job,则资源在2个 Job 间分配。
Capacity Scheduler 的配置
对于 Capacity scheduler,会将 Job 提交到若干 Queue中,然后每个 Queue 是 FIFO 的,如果 Queue 中有超过一个 Job,并且有空闲资源,给这个 Queue 分配的资源是可以超过其预定的量的。
一个配置文件的示例(配置文件为 capacity-scheduler.xml),有层次的在各个队列之间分配资源比例:
<property>
<name>yarn.scheduler.capacity.root.queues</name>
<value>dev,prod</value>
<description>
The queues at the this level (root is the root queue).
</description>
</property>
<property>
<name>yarn.scheduler.capacity.root.prod.capacity</name>
<value>40</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.capacity</name>
<value>60</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.maximum-capacity</name>
<value>75</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.science.capacity</name>
<value>50</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.dev.eng.capacity</name>
<value>50</value>
</property>
详细的配置说明在这里官方文档。
在提交 Job 时,可以指定 Queue,对于 MapReduce,可以指定 property mapreduce.job.queuename
。
Fair Scheuler 配置
Fair 调度也有 Queue 的概念,资源在 Queue 之间是公平分配的,对同一个 Queue 中的 Job,资源同样是均匀分配的。比如 2 个 Queue:Queue1 Queue2;Queue1 有 Job1,Queue2 有 Job2 以及 Job3,则 Job1 使用 50% 资源, Job2 和 Job3 各 25% 资源。
在 yarn-site.xml 中 设置 yarn.resourcemanager.scheduler.class
可以修改默认的 scheduler:org.apache.yarn.server.resourcemanager.scheduler.fair.FairScheduler
。
Fair Scheuler 的配置文件为 fair-scheduler
(可以通过 yarn.scheduler.fair.allocation.file 修改):
<?xml version="1.0"?>
<allocations>
<defaultQueueSchedulingPolicy>fair</defaultQueueSchedulingPolicy>
<queue name="prod">
<weight>40</weight>
<schedulingPolicy>fifo</schedulingPolicy>
</queue>
<queue name="dev">
<queue name="eng">
<queue name="science">
</queue>
<queuePlacementPolicy>
<rule name="specified" create="false">
<rule name="primaryGroup" create="false">
<rule name="default" create="dev.eng">
</queuePlacementPolicy>
</allocations>
defaultQueueSchedulingPolicy 默认为 fair,也可以指定为 FIFO 等。通过 weight 可以分配 Queue 之间分配资源的比例。更详细的配置细节见官方文档。
如何将 Job 放到指定的 Queue 中去由 queuePlacementPolicy 决定:对每一条 rule 逐一尝试。specified 指由应用自己指定 Queue 的名字,如果没有指定或指定的 Queue 不存在,则进入下一条;primaryGroup 指使用用户的 unix group 作为队列名称;最终默认的队列是 dev.eng,将会处理所有没有被处理的 Job。默认的策略是:
<queuePlacementPolicy>
<rule name="specified">
<rule name="user">
</queuePlacementPolicy>
抢占式
配置 property yarn.scheduler.fair.preemption
设置为 true 可以使 Job 抢占式的获取资源,而不用等别人释放。
延迟以本地运行
配置 property yarn.scheduler.capacity.node-locality-delay
会使 scheduler 尝试等待一段时间以获取本地执行的机会(本地执行就是在数据所在的 node 运行)。
DRF 主要资源 Fairness
默认情况下占用资源主要指内存,如果打开了 DRF,那么在总资源中占比多的将会成为所谓的 DRF,以其在总资源中的占比来评价其所需资源。比如需要集群 6% 的 cpu 和 3% 的内存,那么 cpu 将成为主要资源。
打开 DRF 的方式:
- 对于capacity scheduler,在 capacity-scheduler.xml 中设置
yarn.scheduler.capacity.resource-calculator
为org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
- 对于 fair scheduler,在 allocation 文件里设置顶层元素 defaultQueueSchedulingPolicy 为 drf。