Xiaohui Deng's blog – 第 12 页 – 一个博客，运行了十余年，记录了成长的心路历程

2012 年 11 月 30 日2012 年 11 月 30 日

Redhat Enterprise Linux 6 update 3 (RHEL 6.3) 与WINDOWS SERVER 2008 Active Directory 集成

好久没用Windows，这周在做hadoop的安全认证相关事情，打算hadoop改用kerberos进行用户认证。kerberos的实现在linux下有很多方案了，因为微软的Active Directory在企业中应用还是比较广泛的，就打算装个windows server 做域控制器，来提供LDAP 目录检索和kerberos认证服务。想想对AD还是挺熟悉的，若干年前就搞过了，于是兴致满满的开工了。

周一装好了windows server 2003 ，这就是悲催故事的开始。。。。。配好了AD和DNS，然后有点悲催，折腾了两天具体就不谈了，回头想是AD中的属性名称与linux不同，然后又按照win2008的属性名做映射，能通才怪了。虽然最后没配通，但是对整个AD与linux的相关集成有了更深入了解。

文中用到的一些信息如下：

域控制器 BIDC.BI.HYLANDTEC.COM

域 :BI.HYLANDTEC.COM

用户检索ldap的bind用户名称 :binduser

1.WINDOWS 配置部分

在windows 2008上装完AD以后注意要装上NIS扩展模型，属性中就会出现一个新的Tab页（Unix Attributes）。设置好uid，gid，homedirectory等AD中的用户和组才能为linux所用。

装完NIS以后新增一个group

而后设置linuxgrp的gid

而后新建用户binduser

设置好用户的unix相关属性

设置完以后用系统自带的ADSI EDIT (ADSIEDIT.MSC) 或者Mark Russinovich 的Active Directory Explorer或者ldapsearch等等来看看用户属性。下图是Active Directory Explorer的截图，如果需要完成属性最好还是用adsiedit来看：

Linux中用户所必需的loginshell，uid，gid等等已经出现了。AD中的配置肩搭到这边即可用了，剩下主要是linux下的工作。

2.linux配置部分

Linux 下有很多方案，用Winbind,sssd.nslcd 的，其中nslcd是rhel 6中引入的，所以本次在rhel6.3中就采用nslcd的方式。

yum install pam_krb5 pam_ldap nss-pam-ldapd nscd openldap-clients

装完以后先执行以下命令试试能否和AD服务器连通，如果服务器不通，检查防火墙和网络设置。

ldapsearch -x -LLL -H ‘ldap://bidc.bi.hylandtec.com’ -b ‘DC=BI,DC=HYLANDTEC,DC=COM’ -E pr=200/noprompt -D “[email protected]” -W -s sub “(cn=binduser)”

应该会出来类似的结果，注意unix相关属性应该顺利被读取。

与ldap服务器连接无问题后以root用户运行

authconfig-tui

按照如下配置认证方式：

配置LDAP

配置kerberos

按OK保存以后会提示nslcd服务启动：

检查Name Service Switch 已经配置为使用ldap了。/etc/nsswitch.conf 文件中以下三行是否有ldap。

passwd:     files ldap

shadow:     files ldap

group:      files ldap

由于AD不允许匿名使用目录服务，以及需要对AD中的属性映射到unix下的属性。还需要对nslcd做手工配置。

修改/etc/nslcd.conf 文件（注：windows server 2003 装SFU 的NIS 以后的ladp的属性名称和2008的不一样，配置文件中的需要写较多的map 但其实也是可以用的）

binddn CN=binduser,CN=Users,DC=BI,DC=HYLANDTEC,DC=COM

bindpw bind..321

# Mappings for Active Directory

pagesize 1000

referrals off filter

passwd (&(objectClass=user)(!(objectClass=computer))(uidNumber=*)(unixHomeDirectory=*))

map    passwd uid              sAMAccountName

map    passwd homeDirectory    unixHomeDirectory

map    passwd gecos            displayName

filter shadow (&(objectClass=user)(!(objectClass=computer))(uidNumber=*)(unixHomeDirectory=*))

map    shadow uid              sAMAccountName

map    shadow shadowLastChange pwdLastSet

filter group (objectClass=group)

map    group uniqueMember     member

修改完后执行/etc/init.d/nslcd restart 重启nslcd

重启完毕后执行getent passwd ,

nscd:x:28:28:NSCD Daemon:/:/sbin/nologin

nslcd:x:65:55:LDAP Client User:/:/sbin/nologin

binduser:*:10000:10000:binduser:/home/binduser:/bin/sh

出现AD中的用户，如binduser就说明nslcd配置正确。

因为LDAP过来的用户并没有创建主目录，所以需要自动新建主目录。在/etc/pam.d/sshd 以及/etc/pam.d/logon中增加一行

session required pam_mkhomedir.so skel=/etc/skel umask=0022

kerberos要求各台服务器间时间同步，误差不能大于十分钟，所以与域控制器做好时间同步。

ntpdate bidc.bi.hylandtec.com

最后检查主机名是否设置正确/etc/hosts

172.16.130.227 rhel227.bi.hylandtec.com rhel227

执行hostname命令设置主机名，并检查/etc/sysconfig/network 文件中的主机名是否正确设置。

hostname rhel227.bi.hylandtec.com

编辑， /etc/krb5.conf在libdefaults部分增加default_tgs_enctypes，default_tkt_enctypes，permitted_enctypes 三个属性，例如：

[libdefaults]

default_realm = BI.HYLANDTEC.COM

dns_lookup_realm = false

dns_lookup_kdc = false

ticket_lifetime = 24h

renew_lifetime = 7d

forwardable = true

default_tgs_enctypes = rc4-hmac

default_tkt_enctypes = rc4-hmac

permitted_enctypes = rc4-hmac

编辑/etc/samba/smb.conf ，内容如下，workgroup写域的第一部分：

workgroup = BI

server string = Samba Server Version %v

netbios name = RHEL227

security = ads

realm = BI.HYLANDTEC.COM

dedicated keytab file = / etc/krb5.keytab

kerberos method = system keytab

password server = BIDC.BI.HYLANDTEC.COM

使用域管理员用户将计算机加入域

[root@rhel227 ~]# net ads join OSNAME=RHEL OSVer=6 -U Administrator

Enter Administrator’s password:

Using short domain name — BI

Joined ‘RHEL227’ to realm ‘BI.HYLANDTEC.COM’

查看keytab ,顺利出现主机内容就表示配置成功。

[root@rhel227 security]# klist -ke

Keytab name: WRFILE:/etc/krb5.keytab

KVNO Principal —- ————————————————————————–

3 host/[email protected] (des-cbc-crc)

3 host/[email protected] (des-cbc-md5)

3 host/[email protected] (arcfour-hmac)

3 host/[email protected] (des-cbc-crc)

3 host/[email protected] (des-cbc-md5)

3 host/[email protected] (arcfour-hmac)

3 [email protected] (des-cbc-crc)

3 [email protected] (des-cbc-md5)

3 [email protected] (arcfour-hmac)

而后我们就可以尝试使用AD上的用户登录linux主机了。。

[root@rhel232 ~]# ssh [email protected]

[email protected]’s password:

Creating directory ‘/home/binduser’.

-sh-4.1$ hostname

rhel227.bi.hylandtec.com

-sh-4.1$ id binduser

uid=10000(binduser) gid=10000(linuxgrp) groups=10000(linuxgrp)

顺利登录，大功告成。

2012 年 11 月 23 日

hadoop 0.20.2 capacity scheduler 配置方法

本文采用的是CDH4+MAPREDUCE 0.20

hadoop中共有6台机作为tasktracker ，每台机配置map和reduce个2个slots

队列名	Capacity	Maximum Capacity
defaults	10%
edp	50%	90%
hive	40%	80%

设置完资源后，设置队列的ACL，必须具有相关权限才能向指定队列中提交任务。

队列名	权限
defaults	所有用户可提交
edp	xhdeng可提交
hive	root及hive用户可提交

登录jobtracker机器

将/usr/lib/hadoop-0.20-mapreduce/contrib/capacity-scheduler/下的hadoop-capacity-scheduler-2.0.0-mr1-cdh4.0.1.jar 复制到/usr/lib/hadoop/lib/目录下

修改/etc/hadoop/conf 下的mapred-site.xml 在其中新增

<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.CapacityTaskScheduler</value>
</property>

<property>
<name>mapred.queue.names</name>
<value>default,edp,hive</value>
</property>

<property>
<name>mapred.acls.enabled</name>
<value>true</value>
<description> Specifies whether ACLs should be checked
for authorization of users for doing various queue and job level operations.
ACLs are disabled by default. If enabled, access control checks are made by
JobTracker and TaskTracker when requests are made by users for queue
operations like submit job to a queue and kill a job in the queue and job
operations like viewing the job-details (See mapreduce.job.acl-view-job)
or for modifying the job (See mapreduce.job.acl-modify-job) using
Map/Reduce APIs, RPCs or via the console and web user interfaces.
</description>
</property>

在/etc/hadoop/conf 下新建capacity-scheduler.xml

<?xml version=”1.0″?>

<!– This is the configuration file for the resource manager in Hadoop. –>
<!– You can configure various scheduling parameters related to queues. –>
<!– The properties for a queue follow a naming convention,such as, –>
<!– mapred.capacity-scheduler.queue.<queue-name>.property-name. –>

<configuration>

<property>
<name>mapred.capacity-scheduler.maximum-system-jobs</name>
<value>6</value>
<description>Maximum number of jobs in the system which can be initialized,
concurrently, by the CapacityScheduler.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.capacity</name>
<value>10</value>
<description>Percentage of the number of slots in the cluster that are
to be available for jobs in this queue.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.maximum-capacity</name>
<value>-1</value>
<description>
maximum-capacity defines a limit beyond which a queue cannot use the capacity of the cluster.
This provides a means to limit how much excess capacity a queue can use. By default, there is no limit.
The maximum-capacity of a queue can only be greater than or equal to its minimum capacity.
Default value of -1 implies a queue can use complete capacity of the cluster.

This property could be to curtail certain jobs which are long running in nature from occupying more than a
certain percentage of the cluster, which in the absence of pre-emption, could lead to capacity guarantees of
other queues being affected.

One important thing to note is that maximum-capacity is a percentage , so based on the cluster’s capacity
the max capacity would change. So if large no of nodes or racks get added to the cluster , max Capacity in
absolute terms would increase accordingly.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.supports-priority</name>
<value>false</value>
<description>If true, priorities of jobs will be taken into
account in scheduling decisions.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.minimum-user-limit-percent</name>
<value>100</value>
<description> Each queue enforces a limit on the percentage of resources
allocated to a user at any given time, if there is competition for them.
This user limit can vary between a minimum and maximum value. The former
depends on the number of users who have submitted jobs, and the latter is
set to this property value. For example, suppose the value of this
property is 25. If two users have submitted jobs to a queue, no single
user can use more than 50% of the queue resources. If a third user submits
a job, no single user can use more than 33% of the queue resources. With 4
or more users, no user can use more than 25% of the queue’s resources. A
value of 100 implies no user limits are imposed.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.user-limit-factor</name>
<value>1</value>
<description>The multiple of the queue capacity which can be configured to
allow a single user to acquire more slots.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.maximum-initialized-active-tasks</name>
<value>200000</value>
<description>The maximum number of tasks, across all jobs in the queue,
which can be initialized concurrently. Once the queue’s jobs exceed this
limit they will be queued on disk.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.maximum-initialized-active-tasks-per-user</name>
<value>100000</value>
<description>The maximum number of tasks per-user, across all the of the
user’s jobs in the queue, which can be initialized concurrently. Once the
user’s jobs exceed this limit they will be queued on disk.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.default.init-accept-jobs-factor</name>
<value>10</value>
<description>The multipe of (maximum-system-jobs * queue-capacity) used to
determine the number of jobs which are accepted by the scheduler.
</description>
</property>

<!– The default configuration settings for the capacity task scheduler –>
<!– The default values would be applied to all the queues which don’t have –>
<!– the appropriate property for the particular queue –>
<property>
<name>mapred.capacity-scheduler.default-supports-priority</name>
<value>false</value>
<description>If true, priorities of jobs will be taken into
account in scheduling decisions by default in a job queue.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.default-minimum-user-limit-percent</name>
<value>100</value>
<description>The percentage of the resources limited to a particular user
for the job queue at any given point of time by default.
</description>
</property>
<property>
<name>mapred.capacity-scheduler.default-user-limit-factor</name>
<value>1</value>
<description>The default multiple of queue-capacity which is used to
determine the amount of slots a single user can consume concurrently.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.default-maximum-active-tasks-per-queue</name>
<value>200000</value>
<description>The default maximum number of tasks, across all jobs in the
queue, which can be initialized concurrently. Once the queue’s jobs exceed
this limit they will be queued on disk.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.default-maximum-active-tasks-per-user</name>
<value>100000</value>
<description>The default maximum number of tasks per-user, across all the of
the user’s jobs in the queue, which can be initialized concurrently. Once
the user’s jobs exceed this limit they will be queued on disk.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.default-init-accept-jobs-factor</name>
<value>10</value>
<description>The default multipe of (maximum-system-jobs * queue-capacity)
used to determine the number of jobs which are accepted by the scheduler.
</description>
</property>

<!– Capacity scheduler Job Initialization configuration parameters –>
<property>
<name>mapred.capacity-scheduler.init-poll-interval</name>
<value>5000</value>
<description>The amount of time in miliseconds which is used to poll
the job queues for jobs to initialize.
</description>
</property>
<property>
<name>mapred.capacity-scheduler.init-worker-threads</name>
<value>5</value>
<description>Number of worker threads which would be used by
Initialization poller to initialize jobs in a set of queue.
If number mentioned in property is equal to number of job queues
then a single thread would initialize jobs in a queue. If lesser
then a thread would get a set of queues assigned. If the number
is greater then number of threads would be equal to number of
job queues.
</description>
</property>

<property>
<name>mapred.capacity-scheduler.queue.hive.capacity</name>
<value>40</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.hive.maximum-capacity</name>
<value>80</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.hive.supports-priority</name>
<value>false</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.hive.minimum-user-limit-percent</name>
<value>20</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.hive.user-limit-factor</name>
<value>10</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.hive.maximum-initialized-active-tasks</name>
<value>200000</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.hive.maximum-initialized-active-tasks-per-user</name>
<value>100000</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.hive.init-accept-jobs-factor</name>
<value>100</value>
</property>

<!– queue: edp –>
<property>
<name>mapred.capacity-scheduler.queue.edp.capacity</name>
<value>50</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.edp.maximum-capacity</name>
<value>90</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.edp.supports-priority</name>
<value>false</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.edp.minimum-user-limit-percent</name>
<value>100</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.edp.user-limit-factor</name>
<value>1</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.edp.maximum-initialized-active-tasks</name>
<value>200000</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.edp.maximum-initialized-active-tasks-per-user</name>
<value>100000</value>
</property>
<property>
<name>mapred.capacity-scheduler.queue.edp.init-accept-jobs-factor</name>
<value>10</value>
</property>

</configuration>

在/etc/hadoop/conf 下新建mapred-queue-acls.xml

<configuration>
<property>
<name>mapred.queue.edp.acl-submit-job</name>
<value>xhdeng</value>
<description> Comma separated list of user and group names that are allowed
to submit jobs to the ‘default’ queue. The user list and the group list
are separated by a blank. For e.g. user1,user2 group1,group2.
If set to the special value ‘*’, it means all users are allowed to
submit jobs. If set to ‘ ‘(i.e. space), no user will be allowed to submit
jobs.

It is only used if authorization is enabled in Map/Reduce by setting the
configuration property mapred.acls.enabled to true.
Irrespective of this ACL configuration, the user who started the cluster and
cluster administrators configured via
mapreduce.cluster.administrators can submit jobs.
</description>
</property>
<property>
<name>mapred.queue.hive.acl-submit-job</name>
<value>hive,root</value>
<description> Comma separated list of user and group names that are allowed
to submit jobs to the ‘default’ queue. The user list and the group list
are separated by a blank. For e.g. user1,user2 group1,group2.
If set to the special value ‘*’, it means all users are allowed to
submit jobs. If set to ‘ ‘(i.e. space), no user will be allowed to submit
jobs.

It is only used if authorization is enabled in Map/Reduce by setting the
configuration property mapred.acls.enabled to true.
Irrespective of this ACL configuration, the user who started the cluster and
cluster administrators configured via
mapreduce.cluster.administrators can submit jobs.
</description>
</property>
<property>
<name>mapred.queue.default.acl-submit-job</name>
<value>*</value>
<description> Comma separated list of user and group names that are allowed
to submit jobs to the ‘default’ queue. The user list and the group list
are separated by a blank. For e.g. user1,user2 group1,group2.
If set to the special value ‘*’, it means all users are allowed to
submit jobs. If set to ‘ ‘(i.e. space), no user will be allowed to submit
jobs.

It is only used if authorization is enabled in Map/Reduce by setting the
configuration property mapred.acls.enabled to true.
Irrespective of this ACL configuration, the user who started the cluster and
cluster administrators configured via
mapreduce.cluster.administrators can submit jobs.
</description>
</property>
</configuration>

重启jobtracker，登录hadoop的map/reduce administration即可发现新的调度器生效。

Scheduling Information

Queue Name	State	Scheduling Information
hive	running	Queue configuration Capacity Percentage: 40.0% User Limit: 20% Priority Supported: NO ————- Map tasks Capacity: 4 slots Maximum capacity: 9 slots Used capacity: 0 (0.0% of Capacity) Running tasks: 0 ————- Reduce tasks Capacity: 4 slots Maximum capacity: 9 slots Used capacity: 0 (0.0% of Capacity) Running tasks: 0 ————- Job info Number of Waiting Jobs: 0 Number of Initializing Jobs: 0 Number of users who have submitted jobs: 0
default	running	Queue configuration Capacity Percentage: 10.0% User Limit: 100% Priority Supported: NO ————- Map tasks Capacity: 1 slots Used capacity: 0 (0.0% of Capacity) Running tasks: 0 ————- Reduce tasks Capacity: 1 slots Used capacity: 0 (0.0% of Capacity) Running tasks: 0 ————- Job info Number of Waiting Jobs: 0 Number of Initializing Jobs: 0 Number of users who have submitted jobs: 0
edp	running	Queue configuration Capacity Percentage: 50.0% User Limit: 100% Priority Supported: NO ————- Map tasks Capacity: 6 slots Maximum capacity: 10 slots Used capacity: 0 (0.0% of Capacity) Running tasks: 0 ————- Reduce tasks Capacity: 6 slots Maximum capacity: 10 slots Used capacity: 0 (0.0% of Capacity) Running tasks: 0 ————- Job info Number of Waiting Jobs: 0 Number of Initializing Jobs: 0 Number of users who have submitted jobs: 0

如果修改了调度器的配置文件，无需重启整个jobtracker，使用以下命令刷新即可。

hadoop mradmin -refreshQueues

查看当前用户的acl可以使用以下命令查看。

mapred queue -showacls

Queue acls for user : root

Queue Operations
=====================
hive submit-job,administer-jobs
default submit-job,administer-jobs
edp administer-jobs

用root用户往edp队列中跑一个任务测试一下：

sudo hadoop jar hadoop-mapreduce-client-jobclient-2.0.0-cdh4.0.1-tests.jar TestDFSIO -D mapred.job.queue.name=edp -write -nrFiles 6 -fileSize 1000

然后，必然的，报错了。

12/11/23 16:16:19 ERROR security.UserGroupInformation: PriviledgedActionException as:root (auth:SIMPLE) cause:org.apache.hadoop.security.AccessControlException: User root cannot perform operation SUBMIT_JOB on queue edp.
Please run “hadoop queue -showacls” command to find the queues you have access to .

用root用户往edp用户中跑一个任务测试一下：

sudo hadoop jar hadoop-mapreduce-client-jobclient-2.0.0-cdh4.0.1-tests.jar TestDFSIO -write -nrFiles 6 -fileSize 1000

然后，必然的，报错了。

default

running

Queue configuration
Capacity Percentage: 10.0%
User Limit: 100%
Priority Supported: NO
————-
Map tasks
Capacity: 1 slots
Used capacity: 1 (100.0% of Capacity)
Running tasks: 1
Active users:
User ‘root’: 1 (100.0% of used capacity)
————-
Reduce tasks
Capacity: 1 slots
Used capacity: 0 (0.0% of Capacity)
Running tasks: 0
————-
Job info
Number of Waiting Jobs: 0
Number of Initializing Jobs: 0
Number of users who have submitted jobs: 1

跑起来了，很悲催的是只能使用1个slot。。。

那往hive队列上再调一次。。

Queue Name	State	Scheduling Information
hive	running	Queue configuration Capacity Percentage: 40.0% User Limit: 20% Priority Supported: NO ————- Map tasks Capacity: 4 slots Maximum capacity: 9 slots Used capacity: 6 (150.0% of Capacity) Running tasks: 6 Active users: User ‘root’: 6 (100.0% of used capacity) ————- Reduce tasks Capacity: 4 slots Maximum capacity: 9 slots Used capacity: 0 (0.0% of Capacity) Running tasks: 0 ————- Job info Number of Waiting Jobs: 0 Number of Initializing Jobs: 0 Number of users who have submitted jobs: 1

提示：我们设置的capacity是4，而实际的则是Used capacity: 6 (150.0% of Capacity)，符合我们的预期。

使用capacity scheduler ，集群的资源得到有效的管理可控制，即不会让一个用户跑死整个集群，也不会管得过死造成资源闲置。

2012 年 11 月 19 日

OpenLDAP 2.3 使用非root用户启动

OpenLDAP默认使用root用户安装及启动，这当然是有原因的，OpenLDAP 的默认安装位置在/usr/local/，非root用户无权安装，而且OpenLDAP的默认端口为389，在linux情况下，低于1024的端口号为特权端口，必须使用root权限才能绑定。

所以要使用非root用户，一个是安装路径要改为非root权限即可读写的目录，二是将端口号改为1024以上的非特权端口。

所以安装过程加上了制定安装路径的步骤，例如安装在ld用户的openldap目录下：

./configure –prefix=/home/ld/openldap

make depend

make

make install

安装完后，进行slapd.conf的配置等等，即可启动服务，例如使用3389端口

/home/ld/openldap/libexec/slapd -f /home/ld/openldap/etc/openldap/slapd.conf -h ldap://localhost:3389

使用netstat检查，3389端口已经在监听中，Openldap安装启动完成。

2012 年 10 月 25 日2012 年 10 月 25 日

攻城师的沟通修炼

软件开发做久了，都会有一些角色的转变，从最初的直接leader分配具体工作来做，到后来需要和不同部门一起协作开发，沟通都是必备技能与工具，无论升级为TL（team leader）、PM（project manager），还是继续做软件工程师。最初做研发时，可能更多的只是关注技术性的专业知识上，觉得做好分配给自己的本职工作是唯一目标。当你技术能力提升到一定高度的时候，领导会分配更大的项目让你负责，这时你发现，写代码不再是你8小时的全部内容，你需要和产品经理探讨需求，需要和其他攻城师讨论技术方案，需要和其他部门协调项目进度，需要和测试人员确认测试流程。。。。等等等等，你突然发现，沟通变得越来越重要，它已经成为你完成特定行动唯一真正有效的手段。
这种转型，对很多工程师来说是痛苦的，很多人当初选择做研发是觉得程序开发只面对机器而不是人，正好符合自己不善言辞的木讷内向性格，当自己在这行业学到很多技术，自以为可以松一口气的时候，突然发现自己的性格竟然不适合这个行业了，你是否在有了很多技术经验后有过这样的迷茫？
你是否在和别人沟通需求时这个表情？

你是否也像我曾经一样，在别人说观点时一直在寻找一次讲话的机会？或者干脆马上粗暴的打断别人来表达自己的立场？在产品经理提了一个大的需求改动时马上说这个做不了？在提出技术方案后意识到错误，但为了程序员的自尊以及觉得其他人都不懂技术而不去做道歉不做修改？在测试人员指出某个问题时觉得测试人员太过于较真，觉得这种情况一万年也不会出现而懒得修改？
最近读了一本工程师修炼的书，里面讲了最重要的一条就是沟通。
无论你从程序员升级为TL，还是PM，还是架构师，或者是高级工程师，其实都是一种晋级。沟通技术知识对你往上升是非常关键的技能。这种技能通常意味着维护你的职位，明确特定项目的潜在风险和当前问题。在单位等级结构的这一层上，你应该阻止产生问题、寻找问题并且解决问题。你的上级都在盯着看你的每一步动作。压力往往会非常大。对于靠技术吃饭的人来说，若想迈出跳至管理的第一步，阶梯上的下个台阶的特性已经大大变化了。尤其是，首先要求的技能是沟通范围、数量大大地拓宽了。

一、沟通原则
学习有效沟通是一个终身的过程——永远都有改善的余地。要学习的沟通原则包括：先听后说、专心致志（人和心思在一处）、正面思考等，这些原则有助于建立与别人的信任关系，使你成为更高超的沟通者。

1. 先听后说
你有没有发现自己在某次谈话中总是想寻求一次讲话的机会，而没有真正在听别人说什么？当你没有听时，你传递给那个对你讲话的人什么信息呢？
至少表面上，你显得不在乎别人说什么。大部分人会很快厌倦这样的谈话，因为他们说的话白白在空气中传播却没人去听。说话的人也许会想他还有更好的事要做，而结束此次谈话。如果你只是偶尔这样做，这种行为没什么大不了的。如果这是你的习惯做法，那么你是在自己与别人之间构筑一道墙。
你听的时候，是不是在找机会纠正对方？即便谈论的话题在往前走，但是你的思路还停留在刚才的某一点上？
这种情况说明，我们并没有在听别人说什么。讲话的人对你很在乎，从其忙碌的工作中抽出时间，为你提供这些宝贵的信息，所以应该认真去听他说什么。
当有人与你说话时，要看着他说，并试着理解他想沟通的内容。给对方足够的时间来表达他的观点，然后再向其询问要澄清的问题。向他表达非语言的反馈，例如点头，让他知道你在关注这次谈话。
我认为罗马人Epictetus说得好：“我们有两个耳朵，一个嘴巴，所以我们应该多听少说。”
2. 专心致志
不管你在哪里，都应专心致志。生活中有许多事情要分神，例如这个周末你要做什么，几分钟前开会回来如何解决会上的问题，怎样找个办法告诉老板某个负面的消息，小孩今晚的英式足球比赛几点开场……所有这些琐事都很容易让你想入非非。
一般来说，人在任何时刻最多只能同时处理7件±2件那么多的事。如果你的脑袋全是一些无关紧要的琐事，你就无法专心致志地做事。要是有人对你说话，你就会完全听不到他在讲什么。倘若他在问你问题，你可能要他们再说一遍。这种情况下，你其实是在浪费别人的时间，他们不会高兴的。如果房间里有个执行官，你就会给人家留下一个持久的坏印象：真是个浪费钱的家伙！
请你读些时间管理方面的书，列出每天需要关注事情的清单计划。在计划中安排好任务的优先级（当天、本周等），并标识每个任务准备投入的时间。这个办法能够让你通过计划安排好每件事，节省你的精力去记忆周围各种正在发生的事。
如果某个会议不是真的需要你参加，你就不要去；假如确实需要你参加，就一定要去，而且人和心思都花在那里。
我发现，坐直、将脚放在座位正下方、做笔记、直视正在讲话的人，能够自然而然地全神贯注于会议正在进行的事情，从说话和肢体语言两方面都给人以积极参与的正面印象。
不管你做什么，都要专心致志！
3. 正面思考
当你表达信息时，总有许多种方法去传递它们。信息需要真实和准确，然而表现出其意义的方式可以多种多样。
你可以以积极意义或消极意义提供信息。你可以基于所期望的结果选择某种方法。也可以采用不偏不倚的方式，不带情绪地列举事实，尽管这通常很难做到。
从沟通的观点来看，人们容易注意负面的东西。通常负面消息总会带来恐惧（当我感觉恐惧邻近时，我会把它当做“要求集中精力的行动”的信号）。
作为架构师，你需要避免不必要的偏见信息，让别人能够选择他们要关注的信息。你可以提供若干种替代方案，但这些方案应当是客观平等的。你需要察觉可能的办法，而不是为别人留下疑惑。
4. 尽早道歉
在一天的事务中，你可能注意到对他人做的某个事情不合适或不正确。记住放下自尊去给受影响的对方道一个歉。向别人诚心道歉并不是好玩或者容易之举，但你可以赢得别人的尊敬，展示你在尽力成长，尝试变得更好的意图。
如果你道歉，对方就有可能重新审视事情，而原谅你带来的任何苦恼伤痛。有些让人尴尬的事情转而有了积极意义。你与那人的关系就有了增进的机会，而不是就此冷淡。
人的本能倾向就是让冒犯别人后的情势不了了之。遗憾的是，你可能埋下了让它长大成祸患的种子，以致对你造成长期的影响。被得罪的人可能会耿耿于怀，在很长很长时间内记住这件事。那个人也许会把这件事告诉别人，说你是个什么类型的人。你和此人及周围其他人的交往能力可能大打折扣。最后，或许你已经忘记做过的事，但是对方却没有忘记。
道歉时，你要清楚地表达出要道歉的是什么，你说的是什么意思。如果你不是诚心道歉，虚假的说辞可能把事情弄得更糟。如果你不能表达诚意，就不要道歉，但你的目标应当是努力与你所交往的人修缮积极的关系。避免让道歉使你向错误的方向发展，限制你的个人成长。
5. 不要在缺陷上招致恼羞成怒
当你在开评审会（例如产品概念评估、需求评审、设计评审、代码评审、测试评审、产品发布评审）时，通常会检查出评审项目的一些缺陷。评审项目的作者对于这些暴露出的缺陷当然会感到不自在。

二、沟通策略
在我们研究了沟通的核心原则后，现在你可以应用一系列策略来展示恒定、高效的沟通风格。
1，多说“是”，少说“不是”
多想解决方案，解决问题，而不是粗暴的反对。
2，抑制想自卫的冲动
通常在交谈中，当我们听到并不完全对自己有正面意义的事情时，我们可能会找借口，我们可能会找办法转移话题，并责怪他人，以使自己脱离干系。或者我们想强词夺理，以阐述那些语句。应当避免做出此反应的冲动。相反，代之以等待，并接受别人所说的话。
在上一段描述的反应中，会谈的真正兴趣已经从对别人转移到你身上。听别人说话的行为至少暂时结束了，我们开始与会谈者发出警示信号：“我们把话题引向另一个方向吧，一个和我没关系的方向。”注意你正在用的肢体语言—胳膊交叉在胸前，或者头转向一边告诉别人“我不想听了”。
问自己这个问题：我能从这个人说的话中学到什么？”通常，他给出的信息也许并不是你乐意听到的，但其动机是好的，仍是你接受信息并获得个人成长的机会。
抑制想自卫的冲动的一个例外就是当手头的问题涉及企业政策或你的正直时。如果别人说的话使你真正涉及与公司政策冲突或你出于正直未做某事（假如，你已经正确做出了行动）时，你需要立即抨击这些说法。你可能想用澄清问题的办法来明确要点，比如“你的意思是我做过某事吗”。如果别人说“是的”，你就以“这并不准确”来明确回应；倘若人家回答“不是”，要感谢他澄清了此事。

转自：http://tech.weibo.com/?p=2103

2012 年 10 月 25 日2012 年 10 月 25 日

Hadoop内置作业调度器与调度平台的集成

Hadoop 现在几乎已经成为业界在大数据上事实的标准，越来越多的企业开始采用hadoop进行数据的存储及处理。既然涉及数据处理，一个不可不提的术语就是“作业” or “job”，大量的作业必然要引入作业管理及调度，hadoop也不能例外。

传统企业中的调度工具，不管像是简单crontab，或者企业级的如control-M，很容易注意到，他们都主要考虑的是将作业分配到集群中的某一台，或者其中某几台上面运行。但是像hadoop 这种大规模分布式计算的集群，考虑都不足。通常Hadoop整个集群是作为一个整体对外服务，考虑的是集群整体资源利用的最大化，HDFS的多副本策略使得集群某一单独节点运行是否正常不再重要，hadoop的一个重要理念是移动计算而不是数据，所以hadoop会尽量在数据存储的节点进行运算，而传统调度工具需要支持这些特点就需要进行大量的改造，本文只讨论传统调度工具如何与hadoop内置调度器更好结合。作业监控部分则不在本文讨论范围内。

hadoop 的内置调度机制

在 2008 年以前，集成在 JobTracker 中的原有调度算法仅有 FIFO。在 FIFO 调度中，JobTracker 从工作队列中拉取作业，最老的作业最先。当hadoop最初出现的时候，主要是设计用来进行大型的批处理例如网页索引，日志挖掘，用户将任务提交至队列，而后集群按照提交的先后顺序执行即可，FIFO也足够用了。然后，当越来越多的数据放在hadoop集群后，另一个问题出现了，人们开始希望在多个用户间共享集群。而此时Hadoop 只支持与 JobTracker 逻辑混合在一起的单一调度器。

于是2008年5月18日有人提交了一个Improvement的issue 。HADOOP-3412 (Refactor the scheduler out of the JobTracker )，调度器从jobtracker的代码中分离出来，调度器变成可插入式的，在JobTracker中加载和调用，用户可以在配置文件mapred-site.xml中的mapred.jobtracker.taskScheduler属性中指定自己的调度器。

当前Hadoop自带的调度器随着hadoop版本的不同会略有区别，但是最常见的三种调度器，分别是FIFO（默认调度器），Capacity Scheduler （容量调度器）和FairScheduler（公平调度器）以下逐一介绍其算法及其适用场景：

1. FIFO

1.1 简介

FIFO(First In First Out)算法。所有用户的作业都被提交到一个队列中，然后由JobTracker按照作业提交时间的先后顺序选择将被执行的作业。在hadoop的后期版本中,增加了优先级处理功能,可以通过设置mapred.job.priority属性或者在JobClient 调用 setJobPriority() 方法来进行优先级设置(优先级可以设置为 VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW), Job scheduler在选择下一运行作业时,会选择一个最高优先级的作业，而后再根据提交时间排序,但是由于FIFO调度器不支持抢占，所以一个高优先级作业仍然可能被一个长期运行的低优先级作业所阻塞。FIFO不考虑各种作业资源需求的不同。

FIFO 是hadoop的默认调度器。

1.2 与传统调度工具的集成

FIFO方式适用于单系统，单用户的hadoop集群，作业提交给hadoop集群时一般需要传递的参数只有优先级

调度平台改造部分：

1）增加作业类型：map-reduce，hive，sqoop 。使得作业的命令行可以在调度平台中配置产生。

2）将作业的优先级转换成为hadoop标准（VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW), 并在想hadoop集群提交作业时同时设置作业优先级。

优先级设置的方法有以下两种

#1：作业源码中调用API JobConf.setJobPriority(JobPriority.NORMAL)

#2：在执行的时候在命令行中添加以下参数 -D mapred.job.priority=HIGH

实际调度中通常会由调度平台动态生成命令行的方式进行。

2.Capacity Scheduler

2.1 简介

CapacityScheduler 是Yahoo开发并捐献的，容量调度器是设计目标是让hadoop应用程序真正成为一个共享的，多租户的集群，并且使得集群的吞吐量和利用率最大化。说的有点绕口，咱们细说下容量调度器的来龙去脉。

传统上企业中每个系统都会有自己的私有服务器用来保证自己的系统在高峰情况，或者接近高峰情况下也能达到预设的SLA，而这样基本上都会导致很差的资源平均利用率，并且企业内众多的独立集群也带来更大的管理成本。

在企业内共享大规模的hadoop集群使得我们可以更加高效，低成本的使用计算资源，但是人们总是担心使用共享集群的话，如果其他系统占用了大量资源的话将会使得他们自己的应用在需要的时候无法获取足够的资源以致应用无法达到预定的SLA.

而容量调度器正是设计用来共享一个大规模的集群，并给予每个系统性能保证。中心思想是各系统按照自己计算的需要，共同投资一个hadoop集群，集群中的可用资源在各系统中分享。这样的集群有个附加的好处是单个系统可以利用别的系统的闲置计算资源进行计算，使得资源的利用更加弹性及高效。

而在各系统间共享集群就必须使系统对多租户( multi-tenancy)设计有很强的支持，因为必须给予每个系统性能保证。并且要确保集群在遇到一个异常的应用/用户/数据集等也不受影响。CapacityScheduler提供一系列严格的限制来确保一个应用/用户/队列不能消耗不恰当的集群资源，同时CapacityScheduler还限制了一个单一的用户/队列可以初始化/等待的应用程序数量来确保集群的公平使用和稳定性。

利用闲置资源有个问题，大部分的系统是一个大的项目群，里面有众多的子系统，他们希望闲置资源优先用于满足同一项目群内子系统的需求，如仍有剩余再共享给其他系统使用，[MAPREDUCE-824]提出了层次队列（hierarchical queues ）的概念，资源优先在子队列中共享，如还有剩余再共享给其他队列。此功能在0.21.0版本中实现。

2.2 特性

以下是Apache Hadoop 2.0.2-alpha官方文档中的特性说明，很官方，很权威。

层次队列-层次队列的支持可以确保资源在一个系统的子队列中共享，而后才允许其他队列使用空闲资源，使得资源分配更加可控及可预测。

性能保证-各个队列只分配了集群的一小部分性能，这样只有部分容量供队列进行处置。所有提交进同一个队列的应用程序都可以访问队列所分配的容量，管理员可以给每一个队列配置软性的限制或者硬性限制。

安全-每个队列都有严格的访问控制列表（ACLs），可以控制那个用户可以提交进入哪个队列，同时也有安全机制来保证用户不能查看 and/or 修改其他用户的程序，同样也支持按队列/按系统的管理角色。

弹性-空闲的资源可以分配给其他超过其处理容量的队列。如果将来某一个时刻先前空闲的队列再次需要这些资源，在这些资源所分配到的任务完成后，空闲资源会被重新分配给先前空闲的队列（不支持抢占）这样保证了资源以一种可预期，弹性的方式分配给队列。这个还能同时防止人为的资源孤岛，提高了集群的使用率。

多租户-提供了多种的限制来保证一个单应用/用户/队列独占队列或者集群，避免集群不堪重负。

易维护– 1）配置可动态加载，队列的定义及属性可以在运行时改变，可以将对晕乎的影响降到最低，同时也提供控制台接口可以让用户或者管理员查看当前系统中各个队列的资源分配情况，管理员可以在运行时增加队列，但是注意不能在运行时删除。2），清空队列，管理员可以在运行时停止一个队列，队列处于停止状态时已经在队列中的作业会继续完成，但是不能往里再新增作业

基于资源的调度 – 支持一些资源密集的作业，作业可以指定一个高于默认值的资源需求量，进而可以满足作业的不同的资源需求，当前，资源内存仅支持内存

上面的看起来有的复杂，还需要了解的几个很重要的特性是：

支持多用户多队列，支持多系统多用户共享集群

单个队列是FIFO调度方式，队列内可以开启优先级控制功能（优先级控制默认是关闭状态）。

支持资源共享，队列内资源有剩余时，可共享给其他缺资源的队列。

当某个tasktracker上出现空闲slot时，调度器的调度策略是，先选择资源利用率（numSlotsOccupied/capacity）低的队列，然后在队列中考虑FIFO和优先级进行作业选择，选择的时候会判断做业所在的用户资源未超限，以及有足够内存满足作业的内存需求。

计算能力调度器调度job时会考虑作业的内存限制，为了满足某些特殊job的特殊内存需求，可能会为该job分配多个slot；例如一个slot是1G内存，一个需要2G内存的程序就会被分配2个slot。fifo及公平调度器不具备此功能。

2.3 配置实例

2.4 与传统调度工具的集成

增加作业类型及优先级的需求同章节1.2，此外还需要进行队列配置

1）在调度平台上新增hadoop队列配置，配置好队列，及队列的资源限制后，可以使用调度工具指定作业在某一队列中运行。

map-reduce作业：可以在作业代码中设置代码属于的队列 conf.setQueueName(“queue1”);

或者在执行的时候在命令行中添加以下参数 -D mapred.job.queue.name=queue1

hive:在执行hive任务时，设置hive属于的队列,例如queue1:

set mapred.job.queue.name=queue1;

2）设置作业的内存资源量

通过设置一下两个属性，可以设置每个task所需要的内存量，如有必要，调度器会为每个task可以申请多个slot以获取根多内存，但最大值不超过mapred.cluster.max.map.memory.mb及mapred.cluster.max.map.memory.mb ，可以将值设置为-1以禁用此功能。

mapred.job.reduce.memory.mb

mapred.job.map.memory.mb

请注意：tasktracker需要先设置

mapred.tasktracker.vmem.reserved,

mapred.task.default.maxvmem，

mapred.task.default.maxvmem，以启用内存监控功能。

3.Fair Scheduler

3.1 简介

公平调度器是由facebook贡献的，适合于多用户共享集群的环境的调度器.

公平调度器在设计时有以下4个主要目标：

1）即使在与大作业共享集群的时候也能迅速的完成小作业。不像Hadoop默认的FIFO调度器，公平调度器可以在大作业运行时让小作业的执行也能取得执行进展，同时又不会使大作业处于资源“饥饿”状态。

2）在一个共享集群里，可以同时运行一些实验性的作业同时对集群中的生产作业提供可靠的SLA。

3）便于管理及配置，程序在遇到一些异常情况的时候也能做出合适的处理，用户也仅在他们需要一些高级功能的时候才需要进行配置。

4）支持在运行时进行重配置，而不需要重启集群。

公平调度器按资源池（pool）来组织作业，并把资源公平的分到这些资源池里。默认情况下，每一个用户拥有一个独立的资源池，以使每个用户都能获得一份等同的集群资源而不管他们提交了多少作业。按用户的 Unix 群组或作业配置（jobconf）属性来设置作业的资源池也是可以的。在每一个资源池内，会使用公平共享（fair sharing）的方法在运行作业之间共享容量（capacity）。用户也可以给予资源池相应的权重，以不按比例的方式共享集群。

除了提供公平共享方法外，公平调度器允许赋给资源池保证（guaranteed）最小共享资源，这个用在确保特定用户、群组或生产应用程序总能获取到足够的资源时是很有用的。当一个资源池包含作业时，它至少能获取到它的最小共享资源，但是当资源池不完全需要它所拥有的保证共享资源时，额外的部分会在其它资源池间进行切分。

3.2 特性

公平调度器的主要特性如下：

支持多用户多队列

资源公平共享（公平共享量由优先级决定）

保证最小共享量

支持时间片抢占

限制作业并发量，以防止中间数据塞满磁盘

3.2.1 Pools

公平调度器将作业分为‘pools’，而后在pool间公平的共享资源，每个pool内可以使用FIFO或者公平共享（fair sharing）的方式进行调度。作业在哪个pool由一个Jobconf 属性决定，“pool name property”默认取mapreduce.job.user.name，所以是每个用户一个pool，但是也可以取其他属性，例如group.name,这样就可以每个unix 组一个group。

一个通常使用的方法是把pool名称设为一个未使用的属性名，例如pool.name，而后将此值默认设为mapreduce.job.user.name，这样既可以让每个用户一个pool，也可以通过直接设置pool.name 将作业制定到一个特殊的pool。以下是一个mapred-site.xml中进行配置的简单示例：

<property>

<name>mapred.fairscheduler.poolnameproperty</name>

<value>pool.name</value>

</property>

<property>

<name>pool.name</name>

<value>${mapreduce.job.user.name}</value>

</property>

3.2.2 最小份额

通常情况下，活动的pool（内有作业的）会在集群中平分map和reduce的slots，但是也可以对指定的pool设置一个最小的map和reduce的slot的份额。这样pool在活动时就会给予指定的slot数量，即便公平份额是小于指定的份额。这样设置以后在非生产作业与生产作业共享hadoop集群的时候对保证生产作业的SLA非常有用。最小份额的设置有以下3个影响

1）pool的公平份额会大于等于其设置的最小份额，slot会冲其他pool的份额中取缺额以达到pool预设份额，有个例外是如果每个活动pool的最小份额加起来大于集群中全部slot的数量，如果遇到这种情况，每个pool中的份额都会成比例的缩小。

2）少于其最小份额的pool会在slot有空闲时最先获得slot。

3）可以给pool设置一个抢占超时（preemption timeout）属性，如果获得的slot不足最小份额，允许其杀死其他作业的task来获得slot，带抢占的最小份额实际使用起来有点像SLA。

请注意，如果一个pool不是活动的，其最小份额并不会被预留，slot会分配给其他pools。

3.2.3 抢占

就像上一小节说到的那样，调度器会将一个pool中作业的task杀死一边满足另一个pool的最小份额，我们把这样的动作成为抢占，准确的说这个称为最小份额抢占（min share preemption），因为还有一个类型的抢占称为公平份额抢占（fair share preemption），如果pool间slot份额未公平共享，也自动会将作业的task杀死以公平分配slot。公平份额的抢占远比最小份额抢占保守，因为未获得公平份额的作业通产是一些非生产的作业，可以容忍一定程度的不公平，公平份额抢占只有在一个pool只获得低于一半的公平份额，并且达到一个预设的抢占超时后才会发生，这个超时通常会设置的比较高（例如10分钟）

两种抢占调度器都会从过度调度的pools中杀死最近启动的一个task，以使抢占导致的资源浪费降到最低。

3.2.4 运行作业限制

公平调度器可以限制每个pool，每个用户可以并行运行的作业。这样就可以有效限制集群上产生的中间文件，作业根据提交时间和优先级运行，如果提交的作业超过限制则会等到正在运行的作业完成后再调起。

3.2.5 作业优先级

在pool内，无论pool内的调度模式是FIFO还是公平共享（fair sharing）都可以使用优先级来控制作业调度。

1）在FIFO的pools中，作业使用hadoop的默认调度器FIFO,首先根据优先级，而后根据提交时间排序决定下一调起作业。

2）在公平共享的pools中，作业优先级被用来设置作业的权重以控制作业所得到的slot份额，普通优先级的权重是1.0，每个优先级级别间权重为上一级别的两倍。例如一个高优先级的权重为2.0，这样他就得到普通优先级两倍的slot份额。

3.2.6 pool 权重

pool可以赋予权重以使集群中的资源不公平的共享。例如一个权重设为2.0的pool得到一个设为1.0的pool的两倍的份额。

3.2.7 延迟调度

公平调度器包含一个延迟调度的算法以提高数据的本地性。hadoop的一个重要理念是移动计算而非移动数据，计算尽量在存储数据的节点上运行，但是公平调度的算法是总是将slot分配给份额比较少的pool中的第一个作业，这就引起作业的数据本地性很差，需要通过网络将数据传输到本地。 1）如果队列头的作业是一个小作业，那么在集群的一个心跳期间接受到的数据就是作业所需的本地数据的几率会很低，从而如果我们总是将slot分配给队列头作业的话，小作业的本地性就会很差。

2）公平调度器有个很强的趋势是给作业分配刚刚完成task的slot，因为当一个task完成，作业就低于其公平份额，

延迟调度算法可以暂时的牺牲公平性来提高数据的本地性，如果队列头的任务无法在tasktracker中进行一个本地任务，他会发出心跳，并且跳过，这样其他的运行作业就会根据pool份额和pool内的调度规则来寻找一个可以运行本地task的作业，但是如果队列头的作业等待的了足够长的时间，他就会允许在数据同一机架的服务器上调去，如果再有足够长的时间，就会允许在不同机架上调起。这个延迟的时间被称为本地延迟（locality delays），通常只延迟几秒就已经足够答复提供数据的本地性。本地延迟在mapred-site.xml中设置，可以设置为0表示禁用。默认值设为1.5倍心跳时间。

3.2.8 管理

公平调度器包含一个web界面可以显示活动pools，作业和其公平公平份额，将作业在pool间移动或者改变作业的优先级。同时，作业的配置文件在被改变时会自动重新加载以便在运行状态下自动重配置。

3.2.9 调度算法

公平分享的一个简单的实现方式就是，无论何时一个slot空闲下来，就将其分配到运行task数最少的那个pool，这样就保证了各个pool间获得相等的slots，除非pool的需求少于其公平份额，那多余的slots就会在其他pool间平分。一下两个特性让公平调度器的算法更加复杂

1） Pool权重意味着某些pool会获得根多的slots，例如一个权重为2的pool获得的slots就会比一个权重为1多两倍，这个通过把调度算法改为将slot分配到runningTasks/Weight 最小的pool来实现。

2）最小份额意味着少于其最小份额的pool会最先得到slots，当我们把pools排序来选择下一个调度的pool时候，我们将少于其最小份额的pool放在大于其最小份额的pool前面，而那些小于其最小份额的pool通过其少于最小份额的比例进行排序。

公平调度器采用一个层次的调度来分配tasks，首选根据如上策略选择一个pool来分配task，而后pool内通过fifo或者fair sharing 来进行作业的内部调度。

3.2.10 fair share 计算

最后再说一下pool的公平共享量的计算方法。公平共享量是基于最小共享量和共享资源量计算得到的，它反映的是某个pool经过资源共享（某些pool的资源用不了，会自动共享给其他pool）之后，一共可以获取的资源总量，一般会大于等于最小共享量。

如果每个pool没有配置最小共享量，且提交了无限量的作业，则让每个pool的slotsAssigned / weight值相同即可。（其中slotsAssgined表示分配给该pool的slot数，weight表示pool的权重）。

而有了最小共享量minShare和pool中的需求量demand（该pool中所有作业尚需的slot总数）后，计算公平共享量fairShare需注意以下两种情况：

（1）某些pool中的最小共享量可能用不完

（2）给配给某些pool的资源量小于其最小共享量

考虑到以上两种情况，调度器设计了基于比率R的公平资源分配方法（设集群中资源总量为totalSlots）：

[1] 如果一个pool的demand<R*weight，则该pool的fairShare=demand

[2] 如果一个pool的minShare>weight，则该pool的fairShare=minShare

[3] 除此之外，所有pool的fairShare=R*weight

[4] 所有pool的的fairShare之和应为totalSlots

通过以上算法计算出的公平共享量即为“公平调度器”的“公平”含义之所在，应尽量保证每个pool获取的资源量为fairshare，如果一定时间期限内达不到，则抢占资源。

r的算法详见下图：

3.3 与传统调度工具的集成

集成上与2.4节类似，调度服务器通过使用不同的操作系统用户调起作业进入合适的pool。

参考资料

——————————————————————————————————

【1】 Hadoop 中的调度

【2】Refactor the scheduler out of the JobTracker

【3】如何编写Hadoop调度器

【4】Hadoop MapReduce Next Generation – Capacity Scheduler

【5】（MAPREDUCE-824）Support a hierarchy of queues in the capacity scheduler

【6】Hadoop-0.21.0公平调度器算法解析