CentOS离线安装docker和nvidia-container-runtime - 简书 (jianshu.com)
1、配置仓库源
sudo yum -y install yum-utils
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo
2、下载相关包到本地
yum install nvidia-container-runtime --downloadonly --downloaddir=./
3、把下载的包复制到目的机器上,并安装
# 解压nvidia-container-runtime.tar.gz
tar -zxvf nvidia-container-runtime.tar.gz
# 离线安装所有rpm包
cd nvidia-container-runtime
rpm -Uvh --force --nodeps *.rpm
4、为 Docker 添加 nvidia 这个运行时
sudo nvidia-ctk runtime configure --runtime=docker
5、重启docker
sudo systemctl daemon-reload
systemctl restart docker
服务重启完毕,我们查看 Docker 运行时列表,能够看到 nvidia 已经生效啦。
docker info | grep Runtimes
Runtimes: nvidia runc io.containerd.runc.v2
查看安装结果
whereis nvidia-container-runtime
附录
1)nvidia-docker-runtime作用
通过nvidia-docker-runtime,可以实现在docker容器内部使用nvidia的gpu 进行相关的模型训练和推理。
docker 安装完成后,可通过docker run 创建常规的docker容器,但是不安装nvidia相关组件无法使用NVIDIA的显卡,docker run 添加 --runtime=nvidia 或者添加--gpus参数报错,并且普通创建的容器执行nvidia-smi 没有返回结果,会出现如下提示。
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
unknown flag: --gpus
2)不同版本docker 安装nvidia gpu SDK区别
在docker19.x以前的版本需要下载nvidia-docker2来启动容器;通过使用nvidia-docker run或者docker run --runtime=nvidia的方式来指定gpu;
docker19.x后版本使用gpu只需要加个参数–gpus all即可(all:使用所有的gpu,如果要使用2个gpu:–gpus 2,也可直接指定哪几个卡:–gpus '"device=1,2"'