拉取 nvidia/cuda基础镜像,硬件是三系显卡,cuda要求11以上(否则cuda可能会调不起来),此处拉取11.4:
docker pull nvidia/cuda:11.4.1-cudnn8-devel-ubuntu18.04 # 拉取镜像
用此镜像起容器:
docker run --runtime=nvidia --name=jupyterlab_v1_2 -dt -v /home/zjlab/test-volume:/home/tmp nvidia/cuda:11.4.1-cudnn8-devel-ubuntu18.04
查看容器jupyterlab对应的容器ID:
docker ps | grep jupyterlab
进入容器:
docker exec -it [容器ID] bash
在容器中主要进行两项工作:
第一、安装 Jupyterlab;
第二、安装 conda 环境并在其中安装 pytorch。
安装 Jupyterlab
如果pip找不到,则采用pip3
apt-get update # 更新软件列表
apt-get install -y python3-dev # 安装 python
apt-get install -y python3-pip # 安装 pip
python3 -m pip install jupyter # 安装 jupyter
python3 -m pip install ipywidgets # 安装 ipywidgets
jupyter nbextension enable --py widgetsnbextension # 打开 notebook 扩展
python3 -m pip install jupyterlab # 安装 jupyterlab
jupyter serverextension enable --py jupyterlab # 打开 jupyterlab 服务扩展
jupyterlab 安装完成后,需要修改默认工作目录,即 Jupyterlab 界面对应于容器中的哪个目录,此处设置的是 /tf 。修改方法如下(可能需要先安装vim,才能对文件进行修改):
mkdir /tf # 生成 tf 目录
jupyter notebook --generate-config # 生成配置文件
根据提示路径打开jupyter_notebook_config.py文件,找到#c.NotebookApp.notebook_dir =;去掉#,修改为c.NotebookApp.notebook_dir = ‘你的工作目录’。
安装 Conda 环境并在其中安装pytorch
下载 Miniconda 安装脚本,然后执行
sh Miniconda3-latest-Linux-x86_64.sh # 安装Miniconda,需根据具体版本更改脚本名称
conda 安装完成后,要退出容器再重新进入,conda 才会生效,重新进入容器后即可创建新的虚拟环境:
conda create -n pytorch-1.9.0-py38 python=3.8 # 创建虚拟环境
conda activate pytorch-1.9.0-py38 # 进入虚拟环境
python3 -m pip install [pytorch|tensorflow|...] # 安装 框架和第三方包
conda install ipykernel # 安装 ipykernel
python -m ipykernel install --name pytorch-1.9.0-py38 # 在 jupyterlab 中创建新的kernel
自动生成 README.md
用户进入 jupyterlab 界面后左侧会自动生成 README.md 文件,这种效果需要通过在容器中 /etc/profile 文件添加如下内容实现:
touch /tf/README.md
echo "如需使用本算法进行训练任务,需在要执行的python文件中接收如下参数:
data_url: 数据集路径
train_out: 训练输出
train_log: 日志输出
训练时这些参数名会以命令行传参的形式传入可执行的python文件中,而参数值会由系统指定。例如:
python run.py --key1=value1 .... --data_url=/data/ --train_out=/out/ --trian_log=/log/
所以如果可执行的python文件不接收这些参数值,可能会导致训练任务失败。" > /tf/README.md
打包镜像
以上步骤执行完之后即可对镜像进行打包:
docker commit cad9d2ce666e notebook_jupyterlab_nvidia:test_v2
打包完成后需要用 Dockerfile 对该镜像进行一些处理用以完成 README.md 自动生成以及 jupyterlab 自动启动。新建一个文件,取名为 Dockerfile,在 Dockerfile 中添加如下内容:
FROM notebook_jupyterlab_nvidia:test_v2
# Expose Jupyter port & cmd
CMD /bin/bash -c "source /etc/profile && jupyter lab --ip=0.0.0.0 --port=8888 --no-browser --allow-root"
在 Dockerfile 所在的目录执行:
docker build -t jupyterlab:pytorch-1.9.0-py38 .
# *jupyterlab:pytorch-1.9.0-py38* 名称可根据实际情况进行修改
镜像打包完成。