Ubuntu深度学习服务器安装及环境搭建(Pytorch版)

本文首发于简书，西北小生_的博客：https://www.jianshu.com/p/5e90f2deb9c4，转载请私信询问！

1.Ubuntu系统安装

参考我的这篇博客

2.Ubuntu源更新和指令集安装

1.执行命令：

sudo apt-get upgrade

sudo apt-get update

进行Ubuntu源和系统更新。

2.执行命令：

sudo apt-get install build-essential cmake g++ gfortran git

sudo apt-get install pkg-config python-dev software-properties-common wget

进行基本指令集、编译器和软件库等的安装。

3.执行命令：

sudo apt-get autoremove

删除为了满足其它软件包的依赖而安装的，但现在不再需要的软件包。

sudo rm -rf /var/lib/apt/lists/*

删除更新、缓存文件列表。

3.英伟达显卡驱动安装

1.打开终端，执行命令：

sudo apt-get purge nvidia-*

删除可能存在的已有驱动。

2.执行命令：

sudo add-apt-repository ppa:graphics-drivers/ppa

添加显卡驱动下载地址到ppa。

3.执行命令：

sudo apt-get update

4.执行命令：

ubuntu-drivers devices

查看显卡设备和显卡驱动。返回的文档中可以看到多个可用的显卡驱动，其中有一个系统推荐的型号，我的是“driver : nvidia-driver-450 - third-party free recommended”。

5.执行命令：

sudo apt-get install nvidia-driver-450

安装英伟达显卡驱动。【注意：nvidia-driver-450是英伟达显卡驱动的版本，根据实际版本进行修改！】

6.执行命令：

reboot

重启电脑。

7.重启完成后，打开终端，执行命令：

nvidia-smi

即可查看当前GPU使用情况。

4.CUDA安装

1.进入Pytorch官网查看你要安装的Pytorch版本需要的CUDA版本，该页面一般只显示最新版本，点击右下角的Previous versions of PyTorch查看Pytorch历史版本及其需要的CUDA版本。

2.进入https://developer.nvidia.com/cuda-downloads，在下方点击“Legacy Releases”，进入CUDA历史发行版本页面。

3.进入https://developer.nvidia.com/cuda-toolkit-archive，选择相应的CUDA版本，我这里选择CUDA 10.2，即CUDA Toolkit 10.2 (Nov 2019)选项，点击该超链接进入下载。

3.进入https://developer.nvidia.com/cuda-10.2-download-archive，依次选择“Linux——>x86_64——>Ubuntu——>18.04——>runfile(local)”，会在下方出现相应的安装命令。

4.执行命令：

wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run

下载CUDA 10.2安装包，下载结束后执行命令：

sudo sh cuda_10.2.89_440.33.01_linux.run

安装CUDA 10.2。在输入accept按回车后会出现一个安装列表界面，其中第一项就是英伟达显卡驱动，滚动鼠标或按键盘上下键，选中英伟达驱动“nvidia driver”选项，按回车后确认这一项最前面的“[ x ]”变成“[ ]”，即取消安装英伟达驱动，再选中最下面的“Install”选项后按回车进行CUDA安装。之后一切选项都选择yes或回车，直到安装结束。

5.安装完成后，配置CUDA的环境变量，执行命令：

sudo gedit /etc/profile

打开profile文件的文本编辑界面，添加如下语句至文件末尾：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

保存并退出文本编辑界面。【注意：修改 /etc/profile会使添加的路径对计算机所有用户生效；修改 ~/.bashrc仅使添加的路径对当前用户生效！以上两句添加的内容千万不能出错，否则会开不了机！别问我怎么知道的…】

6.返回终端，执行命令：

source /etc/profile

生效环境变量，然后重启计算机。

7.重启后登录，进入用户桌面，打开终端，执行命令：

nvcc -V

即可查看CUDA版本信息。

5.CUDA测试（可选，上步执行均无报错后可直接跳过这一步）

1.打开终端，执行命令：

/usr/local/cuda/bin/cuda-install-samples-10.2.sh ~/cuda-samples

注意：10.2是CUDA版本号，根据实际安装CUDA版本进行修改。

2.执行命令：

cd ~/cuda-samples/NVIDIA*Samples

进入指定目录。

3.执行命令：

make -j $(($(nproc) + 1))

进行编译。

4.执行命令：

bin/x86_64/linux/release/deviceQuery

进行CUDA样例测试，若返回“Result = PASS”则表明安装正常。

6.cuDNN安装

1.进入https://developer.nvidia.com/cudnn，点击下面的“Download cuDNN”按钮，进入Nvidia用户登录界面。

2.点击“Login”按钮，进行用户登录。新用户需先点击“Join Now”按钮进行注册，注册完成后再登录才能下载cuDNN。

3.在登录后跳转的页面中，勾选“I Agree To the Terms of the cuDNN Software License Agreement”前面的方框，在下方显示的下载列表中点击对应[Download cuDNN v8.0.2 (July 24th, 2020), for CUDA 10.2]的链接，在子列表中点击[cuDNN Library for Linux (x86)]，下载cuDNN安装包。【注意：这里的cuDNN一定要和CUDA版本对应！】

4.下载完成后，打开终端，进入cuDNN下载文件所在目录（默认为 /home/Downloads文件夹下），执行命令：

tar -xzvf cudnn-10.2-linux-x64-v8.0.2.39.tgz

进行解压，获得5个涉及“cudnn”的文件。【注意：cudnn-10.2-linux-x64-v8.0.2.39.tgz为下载文件名，根据实际下载文件进行修改！】

5.解压完成后，执行命令：

sudo cp cuda/include/cudnn.h /usr/local/cuda/include

sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64

将对应文件复制到系统根目录（usr/local）下。

sudo chmod a+r /usr/local/cuda/include/cudnn.h

sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

赋予对应文件相应的访问、管理权限。

6.重启计算机，完成cuDNN的安装和配置。

7.ssh安装和启动

1.打开终端，执行命令：

sudo apt-get install ssh

进行ssh的安装。

2.执行命令：

ssh -V

查看ssh版本信息。

3.执行命令：

ps -e|grep ssh

查看ssh是否开启。若有返回“sshd”等信息，则ssh开启成功。

8.Anaconda安装

1.进入https://www.anaconda.com/products/individual，点击下方的“Download”按钮，进入下载页面。

2.点击页面右边的Linux 下方的64-Bit (x86) Installer (550 MB)链接，下载Anaconda安装包。

3.下载完成后，打开终端，进入安装包所在目录下（默认为/home/Downloads目录下），执行命令：

bash Anaconda3-2020.07-Linux-x86_64.sh

开始安装Anaconda。【注意：Anaconda3-2020.07-Linux-x86_64.sh为安装包的文件名，根据实际下载文件进行修改！】

4.安装过程中所有询问都选择accept/yes/回车。

5.安装完成后，执行命令：

source ~/.bashrc

(仅在当前用户下)生效环境变量，关闭当前终端，完成Anaconda的安装和配置。

6.打开新终端，输入命令：

python

进入python命令行界面，并返回类似“[GCC 7.3.0] :: Anaconda, Inc. on linux”的信息，则表明Anaconda安装和配置成功。

9.PyTorch安装

1.进入PyTorch官网，选择一款已安装的CUDA版本支持的PyTorch版本，执行命令：

conda install pytorch torchvision cudatoolkit=10.2 -c pytorch

安装PyTorch和tensorboard。对安装过程中的询问输出y回车即可。【注意：cudatoolkit选择相应的版本！】

2.如果在安装过程中出现下载pytorch太慢导致下载失败的话，可以尝试用pip命令安装。

3.如果还是失败的话，就需要更换国内的conda源，我们这里将conda源更换位清华源。
执行命令：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes

更换位清华源。执行新的命令下载并安装pytorch，这里将第1步命令中的“-c”去掉：

conda install pytorch torchvision cudatoolkit=10.2 pytorch

到这里，PyTorch版本的深度学习服务器就安装完毕了。

10.安装VSCODE编辑器

vscode是微软推出的一款轻量文本编辑器，可以运行Python，C++，Java等编程语言，非常好用。旧版本的Anaconda自带vscode，新版本的需要自己单独安装。

1.进入https://code.visualstudio.com/download，点击中间企鹅下面左边的“.deb”下载按钮，会自动下载64位版本的安装包。

2.下载完成后，打开终端，进入安装包所在目录（默认为/home/Downloads）下，执行命令：

sudo dpkg -i code_1.48.0-1597304990_amd64.deb

sudo apt-get install -f

安装vscode。【注意：code_1.48.0-1597304990_amd64.deb为安装包的文件名，根据实际下载文件进行修改！】

3.安装完成后，执行命令：

code .

打开vscode界面。

4.点击左侧竖排第五个插件(Extensions)选项，在出现的小窗口上方的搜索框中输出python，一般下方第一个选项就是python解释器，点击右下角的Install按钮，安装python解释器。

python解释器

待安装完成后，就可以运行python程序了。

11.新建用户

1.执行命令：

sudo useradd -r -m -s /bin/bash new_user

创建新用户，用户名为new_user，可根据自己的用户名进行修改。

2.执行命令：

sudo passwd new_user

设置新用户的密码，按回车后即可看到密码输入提示。

设置成功后，执行命令：

cd /home/

切换至home目录下，执行命令：

ls

查看home目录下的子目录，若存在创建的新用户new_user命名的文件夹，说明创建新用户成功。