先说环境:
- 系统:Win10 x64 1903
- 显卡:RTX2070 super
刚配的一台个人主机,主要拿来学(you)习(xi),自然而然需要配置深度学习环境。首先安装Tensorflow-GPU版本。
过程中遇到的坑:
之前看网上的安装教程,都是安装9.0的CUDA版本,然而我安装完之后,发现GPU根本不工作,并且tensorflow.python.client.device_lib.list_local_devices()
不显示我的GPU,一直是以CPU版本在工作。排查了很久,tensorflow装又删了好几遍,最后发现RTX 2070 super似乎不支持CUDA9.0,卸载CUDA之后用conda安装cuda 10.1,成功解决。
结论:
* RTX 2070 SUPER至少安装CUDA 10.1以上,cuDNN与CUDA配套即可
- cuda与驱动版本的对应查看CUDA对应的NVIDIA驱动版本对照表
- 能用conda装的尽量用conda (CUDA和cuDNN也能用conda装,并且是装在虚拟环境内,不影响原来的系统),简单快捷省事并且基本能保证兼容性
- 如果你的GPU不起作用,那么多半是你的CUDA或cuDNN与你的硬件、系统、python版本、tensorflow版本不配套
开始安装
1.安装Anaconda
Windows下安装Anaconda较为简单,前往官网下载安装包,双击安装即可。下载网址:https://www.anaconda.com/distribution/
因为Anaconda官方服务器在国外,由于众所周知的原因,下载可能较慢,推荐去清华镜像下载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
我这里选择的是5.2.0版本的anaconda,自带的python版本是3.6(这个版本不重要,后面我们会建立虚拟环境)。
上图是安装过程中需要注意的:
红色箭头所指表示是否将Anaconda加入Path环境变量中,这样可以在命令行中直接使用conda命令(我一般勾选,但据说存在问题,因人而异)。勾选这一项的效果参考这篇文章
蓝色箭头所指表示是否将Anaconda注册为系统默认的Python 3.6,如果你想使用别的python版本作为系统默认,不要勾选。因为我没有安装其它python,所以这里我勾选上
安装完成之后,还需要对Anaconda进行添加国内清华源(因为国外源实在太慢)。参考我的另一篇文章Anaconda切换国内高速源
这里有个概念需要区分,conda、Anaconda、Miniconda是什么:
conda是一种通用包管理系统,旨在构建和管理任何语言和任何类型的软件。举个例子:包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换。
Anaconda则是一个pytho发行版,里面预装好了conda、某个版本的python、众多packages、科学计算工具等等,就是把很多常用的不常用的库都给你装好了。
Miniconda,顾名思义,它只包含最基本的内容——python与conda,以及相关的必须依赖项,对于空间要求严格的用户,Miniconda是一种选择。就只包含最基本的东西,其他的库得自己装。
本节参考阅读:Anaconda介绍、安装及使用教程
2.创建虚拟环境
首先创建一个名为python36tfgpu的虚拟环境,且指定版本为python3.6.5。执行
conda create -n python36tfgpu python=3.6.5
conda会自行解析依赖,判断需要安装哪些包,并提示是否继续输入y,完成安装。
执行
conda activate python36tfgpu
切换到刚才创建的虚拟环境接下来一步就是安装tensorlfow了,anaconda中安装tensorflow-gpu版本十分简单,执行:
conda install tensorflow-gpu=1.14.0
等待解析依赖、下载安装即可。包括CUDA、cuDNN,conda都会自动帮我们安装,并且只安装在虚拟环境中,不影响其他的虚拟环境及系统本身。可以看到,所有tensorflow-gpu需要的包,包括CUDA、cuDNN、tensorflow本身、numpy、scipy等包,conda都帮我们准备好安装了。
输入y确定安装。之后进入python环境,执行以下代码
import os
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
进行测试。测试结果:
可以看到CPU:0和GPU:0,表明cpu和gpu版的tensorflow都可以运行了。
注:这里可能会有Warning,参考我的另一篇文章解决FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future ver...
接下来可以执行测试程序测试一下:
# coding=utf8
import tensorflow as tf
import numpy as np
# 使用 NumPy 生成假数据(phony data), 总共 100 个点.
x_data = np.float32(np.random.rand(2, 100)) # 随机输入
y_data = np.dot([0.100, 0.200], x_data) + 0.300
# 构造一个线性模型
#
b = tf.Variable(tf.zeros([1]))
W = tf.Variable(tf.random_uniform([1, 2], -1.0, 1.0))
y = tf.matmul(W, x_data) + b
# 最小化方差
loss = tf.reduce_mean(tf.square(y - y_data))
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)
# 初始化变量
init = tf.initialize_all_variables()
# 启动图 (graph)
sess = tf.Session()
sess.run(init)
# 拟合平面
for step in range(0, 201):
sess.run(train)
if step % 20 == 0:
print (step, sess.run(W), sess.run(b))
# 得到最佳拟合结果 W: [[0.100 0.200]], b: [0.300]
如果没有问题的话,则表明tensorflow-gpu版安装完成。
总算装完了TOT。