ps-lite概述

概述

ps-lite旨在构建高可用分布式的机器学习应用。在ps-lite框架中,多个节点运行在多台物理机器上用于处理机器学习问题。通常会运行一个schedule节点和多个worker/server节点。、

ps-lite架构
  • Worker:worker节点负责主要的工作,如读取数据,计算梯度等。它通过push和pull的方式和server节点进行通信。例如,worker节点push计算得到的梯度到server,或者从server节点pull最新的模型。
  • Server:server节点用于维护和更新模型权重。每个server节点维护其中一部分模型信息。
  • Scheduler:scheduler节点用于监听其他节点的存活状态。也可以用于发送控制命令道其它节点,并且收集其它节点的工作进度。

分布式优化

假设我们想要解决下面的问题:

其中(yi,xi)是样本集,w是权重。
我们想要通过minibatch随机梯度下降(SGD,其中batch大小是b)的方式来解决这个问题。在时间t时,该算法首先随机挑选b个样本,然后通过下面的公式更新权重w

我们给出两个例子来说明ps-lite实现分布式解决这一问题的基本思想。

异步SGD

在第一个例子中,我们将SGD扩展为异步SGD。我们让server节点来维护w,server k获取到w的第k个分片,标识为wk。当从worker接收到梯度后,server k会更新它所维护的权重:

t = 0;
while (Received(&grad)) {
  w_k -= eta(t) * grad;
  t++;
}

\color{red}{reveived}方法返回server从任意worker节点接收的梯段,\color{red}{eta}方法返回时间\color{red}{t}时的训练速率。
对于一个worker,每次它都会做四件事情:

Read(&X, &Y);  // 读取一个minibatch X 和 Y
Pull(&w);           // 从server pull当前的权重
ComputeGrad(X, Y, w, &grad);  // 计算梯度
Push(grad);    // push梯度到server

ps-lite会提供\color{red}{push}\color{red}{pull}方法,用于和存有正确部分数据的server进行通信。

异步SGD的语义和单机版本不同。因为单机版本worker之间没有通信,所以就可能导致当一个worker节点正在计算梯度时权重发生变化。换句话说,每个worker都可能正在使用过期的权重。下图展示了2个server节点和3个worker节点的通信过程:

同步SGD

同步SGD的语义与单机算法完全相同,该模式使用scheduler来管理数据的同步。

for (t = 0, t < num_iteration; ++t) {
  for (i = 0; i < num_worker; ++i) {
     IssueComputeGrad(i, t);
  }
  for (i = 0; i < num_server; ++i) {
     IssueUpdateWeight(i, t);
  }
  WaitAllFinished();
}

\color{red}{IssueComputeGrad}\color{red}{IssueUpdateWeight}发布命令给worker和server,这个过程中\color{red}{WaitAllFinished}函数会一直等待,指定所有命令发布完成。
当worker接受到命令后,它会执行下面的函数:

ExecComputeGrad(i, t) {
   Read(&X, &Y);  // 读取 b / num_workers 个minibatch样本
   Pull(&w);           // 从server拉取最新的权重
   ComputeGrad(X, Y, w, &grad);  // 计算梯度
   Push(grad);       // push梯度到server
}

这个过程和异步SGD几乎一模一样,只是每次要处理b / num_workers个样本。
而server节点相对于异步SGD还要执行额外的一些步骤:

ExecUpdateWeight(i, t) {
   for (j = 0; j < num_workers; ++j) {
      Receive(&grad);
      aggregated_grad += grad;
   }
   w_i -= eta(t) * aggregated_grad;
}

选择哪种方式?

与单机算法相比,分布式算法增加了两个额外的开销,一是数据通信开销,即通过网络发送数据的开销;另一个是由于不完善的负载均衡和机器性能差异带来的同步开销。这两个开销可能会主宰大规模集群和TB级别数据的应用性能。

假设:

变量名称 变量含义
f 凸函数
n 样本数量
m worker数量
b minibatch大小
\tau 最大延迟
Tcomm 一个minibatch的数据通信开销
Tsync 同步开销

权衡结果如下:

SGD 收敛放缓 额外开销
同步 \sqrt b \frac{n}{b}(T_{comm}+T_{sync})
异步 \sqrt{b\tau } \frac{n}{mb}T_{comm}

从中我们得到如下结论:

  • minibatch大小决定了收敛速度和通信开销
  • 最大允许延迟决定了收敛速度和同步开销。在同步SGD中,\tau=0, 因此会有很大的同步开销。而在异步SGD中,使用了无穷大的\tau来消除同步开销。在实际应用中,无穷大的\tau一般不可能出现,但是我们也设置了一个\tau的上限来花费一些同步开销来保证收敛速度。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容