在CentOS7下配置docker深度学习环境
写在开始
由于实验室配了一台有7块V100的GPU服务器,然后需要整个开放给整个实验室使用。因此不能直接把系统环境拿出来用(谁知道有没有小白乱搞系统环境呢?)。然后调研了两种技术方案:1)LXC系统容器;2)docker应用容器。 好了,坑来了。使用方案一有性能损耗,原因大家自己想吧,反正使用方案一,V100的表现有时候还不如GTX1060。因此转而使用方案(2).这里记录一下具体搭建过程。
开始教程
- 首先安装docker,这里需要安装
>=19.03
的版本,因为在这个版本后,docker直接就支持访问宿主机的GPU设备了。(如果你装了其他的版本,我建议你升级到19.03极其更新的版本)
# 安装docker>=19.03的版本
## 查看docker-ce 版本
>>> yum list docker-ce --showduplicates | sort -r
## 安装docker-ce19.03
>>> yum install docker-ce-19.03
## 允许docker开机自启以及现在运行docker
>>> systemctl enable docker.service
>>> systemctl start docker
## 检测docker是否安装成功,如果正常显示版本就算是正常了
>>> docker --version
- 配置docker镜像加速,您可以通过修改daemon配置文件
/etc/docker/daemon.json
来使用加速器,这里去注册获取加速链接
>>> sudo mkdir -p /etc/docker
>>> sudo tee /etc/docker/daemon.json <<-'EOF'
{
"registry-mirrors": ["your aliyun docker accleration url"]
}
EOF
>>> sudo systemctl daemon-reload
>>> sudo systemctl restart docker
- 安装GPU驱动,配置cuda. (吐槽一下,别去看csdn上的教程,坑多的很,直接看NVIDIA官方安装教程)
# 首先去NVIDIA官网下载cuda10.0以及配套的cudnn7
# 然后安装cuda10.0,默认安装目录在/usr/local/cuda
>>> sh cuda10.0.run
# 配置cudnn
## 需要先把下载cudnn文件后缀名改为.tgz,然后解压
>>> tar -zxvf cudnn10.tgz
## 把动态库拷贝到/usr/local/cuda 对应的文件夹中
>>> cp cuda/include/* /usr/local/cuda/include/
>>> cp cuda/lib64/* /usr/local/cuda/lib64/
## 然和给执行权限
>>> chmod u+x /usr/local/cuda/include/cudnn*
>>> chmod u+x /usr/local/cuda/lib64/libcudnn*
## 检测环境是否安装成功,如果输出相关信息则表明成功.
>>> nvidia-smi
- 安装nvidia-docker,官方教程传送门
>>> distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
>>> curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
>>> sudo yum install -y nvidia-container-toolkit
>>> sudo systemctl restart docker
## 测试nvidia-smi是否可用了,如果有输出显卡相关信息,那就是成功了
>>> docker run --gpus all nvidia/cuda:10.0-base nvidia-smi
- 然后去拉一个自己想要的深度学习环境,可以去nvidia的仓库拉一个对应的
cuda10.0+cudnn7
的镜像,然后自己在里面装conda等,这里不详细展开,大概讲一下去拉一个tensorflow-gpu2.0+py3
的镜像。
# 首先打开网站 https://hub.docker.com/ 然后搜索tensorflow,然后找到自己喜欢的镜像拉下来就好了,我这里拉了一个 tensorflow-gpu2.0+py3
>>> docker pull tensorflow/tensorflow:2.0.0-gpu-py3
- 然后启动一个容器,并为该容器分配显卡
# 这里device=0表示分配第一张显卡给这个容器,并挂载了我的工作目录到容器的home目录下
>>> docker run -itd --gpus '"device=0"' -v /home/lch/for_test:/home container_id bash
# 如果你想指定多个显卡到一个容器里面,你可以通过device指定多个设备号来实现
>>> docker run -itd --gpus '"device=0,1,2"' -v /home/lch/for_test:/home container_id bash
# 如果你想挂几个显卡到一个容器里面,这里是系统自动指定两张卡到该容器
>>> docker run -itd --gpus 2 -v /home/lch/for_test:/home container_id bash
# 如果你想把全部显卡都挂到一个容器里面,你可以通过device指定多个设备号来实现
>>> docker run -itd --gpus all -v /home/lch/for_test:/home container_id bash
- 最后进入容器,测试深度学习环境是否可用
# 进入容器
>>> docker exec -it container_id bash
# 启动python,运行tensorflow
>>> python
$$ import tensorflow as tf
$$ tf.test.tf.test.is_gpu_available()
$$ gpus=tf.config.experimental.list_physical_devices(device_type='GPU')
$$ for gpu in gpus:
$$ print(gpu)
如果输出结果为true
,并且还输出了设备列表,那就是成功了。如果没有,再找找其他教程看看咯~