在ubuntu16.04环境下的tensorflow使用记录,旨在分享,欢迎讨论。
tensorflow训练时未启用gpu
tensorflow在训练时,是默认使用GPU的,如果程序能够正常训练,而并未启动GPU,进行如下检查:
- 在终端下输入
nvdia-smi
,显卡启动正常,驱动问题被排除,但是发现GPU使用率未0 - 在终端输入
nvcc -V
查看cuda版本,正常显示,问题被排除 - 问题基本是出在tensorflow本身了,问题找到了,原来是自己安装了cpu版本的tensorflow。重新安装tensorflow,输入指令
pip install tensorflow-gpu
。
如何安装不同python版本的深度学习框架
学习DL一段时间后,在学习RNN时,发现了运用RNN生成莎士比亚文学的实例,实例基于Torch撰写,于是想安装torch框架。
问题:服务器的python版本为3.6,而RNN的实例是基于python2.7的。
解决办法: 安装anaconda,然后再anaconda下创建python2.7的torch环境:conda create -n torch python=2.7
接着在此环境下进行torch的安装。(注意:这里的create torch语句只是创建了一个名字叫torch的环境,并安装了python2.7以及依赖项如numpy等,并没有安装torch本身,需要另行下载)
读取训练模型时遇到错误:'段错误 (核心已转储)'
若训练的step为60000,且在训练时使用的保存语句如下:
saver.save(sess, logs_train_dir+'/model.ckpt', global_step=step)
那么在指定的文件夹下的ckpt目录应该如下图所示:它们存储了权重系数w
和偏置b
系数以及整个神经网络图等信息。
为了方便读取,我删除了
model.ckpt-60000.data-00000-of-00001
中的-60000
和-00000-of-00001
在调用存储的模型进行训练时,出现了上述错误。-00000-of-00001
这一段是不能删除的。只能删除训练step的信息-60000
这一部分。