文章也同时在个人博客 http://kimihe.com/更新
引言
Parameter Server (PS) [1] 是一种目前主流的分布式机器学习范式。其中,李沐 提出的第三代PS [2] 影响力甚大,可以在Github找到其core-sources:ps-lite。
基于上述ps-lite,MXNet [3] 应运而生,发展为目前最“热门”的Deep Learning 软件库之一。
注意:本文将主要着眼于ps-lite。
ps-lite安装
如果你只是想使用ps-lite,而不是做二次开发。根据官方文档进行下载及编译即可。
切入根目录下tests
。
执行> ./local.sh [serverNumber] [workerNumber] [chooceTestApp]
,例如:
> ./local.sh 2 2 ./test_kv_app
上述命令可以执行测试example。
ps-lite源码开发的准备工作
ps-lite项目基于cmake和makefile,你可以直接通过shell的make命令进行编译,也可以利用cmake来实现跨平台和使用IDE开发。这里我们将使用CLion来帮助源码的分析与开发。
下载CLion
可以直接下载CLion。也可以使用Toobox App来管理你的JetBrains大礼包。另外,如果你是学生,教育优惠不可错过!
导入ps-lite工程
选择open
或import source
都可以,CLion默认使用CMake来配置C工程。
首次导入源码后,CMakeList
会运行一次,不出意外,会出现如下报错:
································································
/Applications/CLion.app/Contents/bin/cmake/bin/cmake -DCMAKE_BUILD_TYPE=Debug -G "CodeBlocks - Unix Makefiles" /Users/qihuazhou/Desktop/ps-lite-clion
-- Could NOT find ZMQ (missing: ZMQ_LIBRARY ZMQ_INCLUDE_DIR)
CMake Error at /Applications/CLion.app/Contents/bin/cmake/share/cmake-3.10/Modules/FindPackageHandleStandardArgs.cmake:137 (message):
Could NOT find Protobuf (missing: Protobuf_LIBRARIES Protobuf_INCLUDE_DIR)
Call Stack (most recent call first):
/Applications/CLion.app/Contents/bin/cmake/share/cmake-3.10/Modules/FindPackageHandleStandardArgs.cmake:378 (_FPHSA_FAILURE_MESSAGE)
/Applications/CLion.app/Contents/bin/cmake/share/cmake-3.10/Modules/FindProtobuf.cmake:543 (FIND_PACKAGE_HANDLE_STANDARD_ARGS)
cmake/ProtoBuf.cmake:4 (find_package)
CMakeLists.txt:22 (include)
-- Configuring incomplete, errors occurred!
································································
这里需要注意,直接run
工程根目录下的makefile
文件(右键点击run即可),是可以使用make命令自动去下载依赖,并编译的。
只不过上述make操作只是编译工程(编译完也可以运行tests
下的example),并不能帮助CLion分析项目各文件的依赖关系(例如函数跳转等)。
为了能够方便地进行源码开发,必须搞定CMakeList
的问题。
其实方法很简单,手动安装protobuf
即可。
Mac命令如下:brew install protobuf
。
Ubuntu命令如下:sudo apt-get install libprotobuf-dev protobuf-compiler
。
安装完protobuf
后,再次刷新CLion中的CMakeList
,即可正确解析,只会各源文件中的依赖关系也正确得到分析,可以函数跳转了!
ps-lite源码开发流程
之后,在CLion中分析及修改代码;然后运行使用makefile
来编译;最后通过terminal
运行测试程序;当然你也可以打断点Debug
。
更多内容待后续更新
后续,笔者会更新一些ps-lite的源码分析和开发技巧。
未完待续。
Reference
[1] A. Smola et al. "An architecture for parallel topic models." In VLDB. 2010.
[2] M. Li et al. "Scaling distributed machine learning with the parameter server." In OSDI. 2014.
[3] T. Chen et al. "MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems." In NIPS. 2016.