实例选择
AWS上提供多种实例的选择,一开始没有多想直接选择了Amazon Linux 2 AMI,直接导致后面配Docker和Nvidia-docker时遇到了各种各样的问题。首先,Amazon Linux使用的是Redhat版本(Amazon Linux, like CentOS, is based on RHEL -- it is fundamentally a minimal/basic install of Red Hat Enterprise Linux (hence optimised for the purpose).)
一般来说著名的linux系统基本上分两大类:
1.RedHat系列:Redhat、Centos、Fedora等
常见的安装包格式:rpm包,安装rpm包的命令是“rpm -参数”
包管理工具 yum
2.Debian系列:Debian、Ubuntu等RedHat
常见的安装包格式:deb包,安装deb包的命令是“dpkg -参数
包管理工具 apt-get
一开始并不了解linux系统的分类,默认Ubuntu==linux,结果闹出了大错误。下文详述。
Nvidia Docker配置
首先,参考的配置教程是网络上的这个教程: 使用nvidia-docker2 - Gemfield的文章 - 知乎
按照本文步骤执行前,你需要安装好:
nvidia驱动:Kubuntu 16.04上安装Nvidia GPU驱动 + CUDA + cuDNN
docker:Get Docker CE for Ubuntu
还需要安装好docker-compose:Install Docker Compose
第一步的配置Nvidia GPU驱动就出现了问题。首先,由于使用的是Amazon Linux,在线安装Nvida GPU的第一步就由于无法找到apt命令而失效。没办法只能转到下一步:手动安装驱动。由此我又花了大力气去google如何在Redhat版本的linux上安装apt-get命令、如何运行deb包、如何安装dpkg命令等等等等...到最后追本溯源才发现了自己思维上的误区。
上面行不通之后又换了一个教程,在此,强烈推荐使用PPA方法配置Nvidia 驱动
参考的是这个教程:[Ubuntu 18.04]PPA方式安装Nvidia驱动
安装的是third-party free recommended版本的驱动。需要注意,安装之后一定得reboot,不然无法生效。