TensorFlow遇上Spark

TensorFlowOnSpark 项目是由Yahoo开源的一个软件包，实现TensorFlow集群服务部署在Spark平台之上。

大家好，这次我将分享TensorFlow On Spark的解决方案，将TensorFlow集群部署在Spark平台之上，实现了TensorFlow与Spark的无缝连接，更好地解决了两者数据传递的问题。

tfos.part2.2_2.pdf.jpg

这次分享的主要内容包括TensorFlowOnSpark架构设计，探讨其工作原理，通过理解其设计，更好地理解TensorFlow集群在Spark平台上的运行机制。

tfos.part3.3_3.pdf.jpg

首先，探讨TensorFlowOnSpark的架构与设计。主要包括如下两个基本内容：

架构分析
生命周期

tfos.part4.4_4.pdf.jpg

在开始之前，先探讨一下TensorFlowOnSpark的背景，及其它需要解决的问题。为了实现Spark利用TensorFlow深度学习，及其GPU加速的能力，最常见的解决方案如上图所示。

搭建TensorFlow集群，并通过利用既有的Spark集群的数据完成模型的训练，最种再将训练好的模型部署在Spark集群上，实现数据的预测。

该方案虽然实现了Spark集群的深度学习，及其GPU加速的能力，但需要Spark集群与TensorFlow集群之间的数据传递，造成冗余的系统复杂度。

tfos.part5.5_5.pdf.jpg

很容易想到，可以将TensorFlow集群部署在Spark之上，用于解决集群间数据传递的问题。

依次类同，该方案可实现Caffe部署在Spark集群之上，实现Spark集群对多种深度学习框架的支持能力，并兼容既有Spark组件的完整性，包括Spark MLLib, Spark Streaming, Spark SQL等。

tfos.part6.6_6.pdf.jpg

TensorFlowOnSpark的架构较为简单，Spark Driver程序并不会参与TensorFlow内部相关的计算和处理。其设计思路像是将一个TensorFlow集群运行在了Spark上，其在每个Spark Executor中启动TensorFlow应用程序，然后通过gRPC或RDMA方式进行数据传递与交互。

tfos.part7.7_7.pdf.jpg

TensorFlowOnSpark的Spark应用程序包括4个基本过程。

Reserve：组建TensorFlow集群，并在每个Executor进程上预留监听端口，启动“数据/控制”消息的监听程序。
Start：在每个Executor进程上启动TensorFlow应用程序；
Train/Inference：在TensorFlow集群上完成模型的训练或推理
Shutdown：关闭Executor进程上的TensorFlow应用程序，释放相应的系统资源(消息队列)。

tfos.part8.8_8.pdf.jpg

用户直接通过spark-submit的方式提交Spark应用程序(mnist_spark.py)。其中通过--py_files选项附带TensorFlowOnSpark框架(tfspark.zip)，及其TensorFlow应用程序(mnist_dist.py)，从而实现TensorFlow集群在Spark平台上的部署。

tfos.part9.9_9.pdf.jpg

首先看看TensorFlow集群的建立过程。首先根据spark-submit传递的num_executor参数，通过调用cluster = sc.parallelize(num_executor)建立一个ParllelCollectionRDD，其中分区数为num_executor。也就是说，此时分区数等于Executor数。

然后再调用cluster.mapPartitions(TFParkNode.reserve)将ParllelCollectionRDD变换(transformation)为MapPartitionsRDD，在每个分区上回调TRSparkNode.reserve。

TRSparkNode.reserve将会在该节点上预留一个端口，并驻留一个Manager服务。Manager持有一个队列，用于完成进程间的同步，实现该节点的“数据/控制”消息的服务。

数据消息启动了两个队列：Input与Output，分别用于RDD与Executor进程之间的数据交换。

控制消息启动了一个队列：Control，用于Driver进程控制PS任务的生命周期，当模型训练完成之后，通过Driver发送Stop的控制消息结束PS任务。

tfos.part10.10_10.pdf.jpg

这是从分区的角度看待TensorFlow集群建立的过程，横轴表示RDD。这里存在两个RDD，第一个为ParllelCollectionRDD，然后变换为MapPartitionsRDD。

纵轴表示同一个分区(Partition)，并在每个分区上启动一个Executor进程。在Spark中，分区数等于最终在TaskScheduler上调度的Task数目。

此处，sc.parallelize(num_executor)生成一个分区数为num_executor的ParllelCollectionRDD。也就是说，此时分区数等于num_executor数目。

在本例中，num_executor为3，包括1个PS任务，2个Worker任务。

tfos.part11.11_11.pdf.jpg

TensorFlow集群建立后，将生成上图所示的领域模型。其中，一个TFCluster将持有num_executor个TFSparkNode节点；在每个TFSparkNode上驻留一个Manager服务，并预留一个监听端口，用于监听“数据/控制”消息。

实际上，TFSparkNode节点承载于Spark Executor进程之上。

tfos.part12.12_12.pdf.jpg

TensorFlow集群建立后，通过调用cluster.start启动集群服务。其结果将在每个Executor进程上启动TensorFlow应用程序。

此处，需要对原生的TensorFlow应用程序进行适配修改，包括2个部分：

Feeding与Fetching: 数据输入/输出机制修改
ClusterSpec: TF集群的构造描述

其余代码都将保留，最小化TensorFlow应用程序的修改。

tfos.part13.13_13.pdf.jpg

在cluster上调用foreachPartition(TFSparkNode.start(map_func))，将在每个分区(Executor进程)上回调TFSparkNode.start(map_func)。其中，map_func是对应TF应用程序的包装。

通过上述过程，将在Spark上拉起了一个TF的集群服务。从而使得Spark集群拥有了深度学习和GPU加速的能力。

tfos.part14.14_14.pdf.jpg

当Spark平台上已经拉起了TF集群服务之后，便可以启动模型的训练或推理过程了。在训练或推理过程中，最重要的是解决数据的Feeding和Fetching问题。

TFoS上提供了两种方案：

TensorFlow QueueRunner：利用TensorFlow提供的FileReader和QueueRunner机制。Spark未参与任何工作，请查阅TensorFlow官方相关文档。
Spark Feeding：首先从RDD读取分区数据(通过HadoopRDD.compute)，然后将其放在Input队列中，Executor进程再从该队列中取出，并进一步通过feed_dict，调用session.run将分区数据供给给TensorFlow Graph中。

tfos.part15.15_15.pdf.jpg

Feeding过程，就是通过Input Queue同步实现的。当RDD读取分区数据后，阻塞式地将分区数据put到Input队列中；TFGraph在session.run获取Next Batch时，也是阻塞式地等待数据的到来。

tfos.part16.16_16.pdf.jpg

同样的道理，Fetching过程与Feeding过程类同，只是使用Output Queue，并且数据流方向相反。

session.run返回的数据，通过put阻塞式地放入Output Queue，RDD也是阻塞式地等待数据到来。

tfos.part17.17_17.pdf.jpg

以模型训练过程为例，讲解RDD的变换过程。此处以Mnist手写识别为例，左边表示X，右边表示Y。分别通过HadoopRDD读取分区数据，然后通过MapPartititionRDD变换分区的数据格式；然后通过zip算子，实现两个RDD的折叠，生成ZipPartitionsRDD。

然后，根据Epochs超级参数的配置，将该RDD重复执行Epochs次，最终将结果汇总，生成UnionRDD。

在此之前，都是Transformation的过程，最终调用foreachPartition(train)启动Action，触发Spark Job的提交和任务的运行。

tfos.part18.18_18.pdf.jpg

当模型训练或推理完成之后，分别在Input/Control队列中投掷Stop(以传递None实现)消息，当Manager收到Stop消息后，停止队列的运行。

最终，Spark应用程序退出，Executor进程退出，整个工作流执行结束。

tfos.part19.19_19.pdf.jpg

tfos.part20.20_20.pdf.jpg

推荐资料，强烈推荐直接地源代码阅读；最后欢迎大家关注我的简书。

tfos.part22.22_22.pdf.jpg

开源技术书

https://github.com/horance-liu/tensorflow-internals

最后编辑于：2018.07.23 18:38:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

TensorFlow遇上Spark

开源技术书

推荐阅读更多精彩内容