NNI与其他自动机器学习工具的比较、NNI安装过程体会、NNI使用过程体会、对NNI的建议NNI与其他自动机器学习工具的比较、NNI安装过程体会、NNI使用过程体会、对NNI的建议
安装体验
NNI安装的文档比较全面,首先在实验室的机器上进行了环境的安装,一切看起来都很顺利,很容易就安装上了。
随后,在笔记本(MacBookPro)上进行安装,遇到了比较多的问题,并且根据一起参加项目的师兄反馈,表示笔记本在没有显卡的情况下,跑MNist都很卡。
后来,由于实验室的机器只能内网连接,所以申请了一台云服务器进行试验,Ubuntu系统,带一张P100,安装的时候没有遇到什么问题,非常简单。
安装流程
python库安装
python3 -m pip install --upgrade nni
从github下载代码安装
git clone -b v0.5.1 https://github.com/Microsoft/nni.git
运行安装程序
sh install.sh
此时可以调用nnictl等工具
nnictl create --config nni/examples/trials/mnist/config.yml
可以从默认8080端口访问WebUI界面
安装遇到的tensorflow的问题
安装TensorFlow的时候遇到了一些cuda版本不对应的问题,服务器本身环境是cuda 9.1的,刚开始尝试安装了TensorFlow不指定版本,也就是最新版本,运行的时候遇到了TensorFlow版本过高的问题,发现是9.2以上cuda可以使用的,因此如果运行就会提示你driver版本不够,导致自带CUDA版本不够,降低tf的版本。
tensorflow-gpu==1.8.0
cudatoolkit-9.0
cudnn-7.3.1
也尝试过1.6.0版本的,理论上讲应该没有问题,但是装了几次都是调用CuDNN7.1.3但是只安装了CuDNN7.0.5,估计是因为前面的操作,加上conda的依赖列表里面不会自动重新安装对应版本的的操作,导致了错误,最后选了1.8.0版本的。
另外conda里面安装cudnn的时候,是在conda环境下的,不会影响本来的cudnn版本,也和本来也没有安装cudnn没有关系。
后来发现阿里云的服务器居然停止后还在继续收费,扣了一千多的时候,我终于发现了这个问题,赶紧提交工单问客服,告诉我所有带本地存储的机器都不可以停止后不收钱,那不是坑吗?这个完全就不是按量收费了啊,而且从头到尾也没有相关提示,好气人啊,而且所有的P100都是本地存储。
CentOS 安装
CentOS安装的时候,如果是有源码安装,就会出现找不到命令react-scripts-ts-antd的错误,但是直接使用python安装就可以了。如果是Ubuntu可以apt-get一下。