复习上一小节
- 加载MNIST数据
import input_data
mnist = input_data.read_data_sets('MNIST_data', one_hot=True)
- 运行TensorFlow的
InteractiveSession
import tensorflow as tf
sess = tf.InteractiveSession()
这里,我们使用更加方便的InteractiveSession
类。通过它,你可以更加灵活地构建你的代码。它能让你在运行图的时候,插入一些计算图,这些计算图是由某些操作(operations)构成的。这对于工作在交互式环境中的人们来说非常便利,比如使用IPython。如果你没有使用InteractiveSession
,那么你需要在启动session
之前构建整个计算图,然后启动该计算图。
# 启动默认图,这是在没有用InteractiveSession的时候需要的操作
sess = tf.Session()
- 计算图
TensorFlow先让我们描述一个交互操作图,然后完全将其运行在Python外部。这与Theano或Torch的做法类似。
因此Python代码的目的是用来构建这个可以在外部运行的计算图,以及安排计算图的哪一部分应该被运行。 - 构建Softmax 回归模型
我们通过为输入图像和目标输出类别创建节点,来开始构建计算图。
#x和y并不是特定的值,都只是一个占位符,可以在TensorFlow运行某一计算时根据该占位符输入具体的值。
x = tf.placeholder("float", shape=[None, 784])
y_ = tf.placeholder("float", shape=[None, 10])
虽然placeholder
的shape
参数是可选的,但有了它,TensorFlow能够自动捕捉因数据维度不一致导致的错误。
- 变量
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
变量需要通过seesion初始化后,才能在session中使用。这一初始化步骤为,为初始值指定具体值(本例当中是全为零),并将其分配给每个变量,可以一次性为所有变量完成此操作。
sess.run(tf.initialize_all_variables())
- 类别预测与损失函数
我们的回归模型
y = tf.nn.softmax(tf.matmul(x,W) + b)
我们的损失函数是目标类别和预测类别之间的交叉熵
#tf.reduce_sum把minibatch里的每张图片的交叉熵值都加起来
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
- 训练模型
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
这一行代码实际上是用来往计算图上添加一个新操作,其中包括计算梯度,计算每个参数的步长变化,并且计算出新的参数值。
返回的train_step操作对象,在运行时会使用梯度下降来更新参数。因此,整个模型的训练可以通过反复地运行train_step来完成。
for i in range(1000):
#mnist.train.next_batch()返回两个张量构成的张量,第一个张量对应图片,第二个张量对应图片的标签
batch = mnist.train.next_batch(50)
train_step.run(feed_dict={x: batch[0], y_: batch[1]})
每一步迭代,我们都会加载50个训练样本,然后执行一次train_step
,并通过feed_dict
将x
和y_
张量占位符用训练训练数据替代。
注意,在计算图中,你可以用feed_dict
来替代任何张量,并不仅限于替换占位符。
- 评估模型
首先让我们找出那些预测正确的标签。tf.argmax
是一个非常有用的函数,它能给出某个tensor对象在某一维上的其数据最大值所在的索引值。由于标签向量是由0,1组成,因此最大值1所在的索引位置就是类别标签,比如tf.argmax(y,1)
返回的是模型对于任一输入x
预测到的标签值,而tf.argmax(y_,1)
代表正确的标签,我们可以用tf.equal
来检测我们的预测是否真实标签匹配(索引位置一样表示匹配)。
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))#这里返回一个布尔数组。
我们将布尔值转换为浮点数来代表对、错,然后取平均值。
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
计算出在测试数据上的准确率,大概是91%
print accuracy.eval(feed_dict={x: mnist.test.images, y_: mnist.test.labels})
构建一个多层卷积网络
- 权重初始化
这个模型中的权重在初始化时应该加入少量的噪声来打破对称性以及避免0梯度。由于我们使用的是ReLU神经元,因此比较好的做法是用一个较小的正数来初始化偏置项,以避免神经元节点输出恒为0的问题(dead neurons)。为了不在建立模型的时候反复做初始化操作,我们定义两个函数用于初始化。
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
#truncated_normal:截断正态分布随机数,均值mean,标准差stddev,不过只保留[mean-2*stddev,mean+2*stddev]范围内的随机数
return tf.Variable(initial)
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
#tf.constant(value,dtype=None,shape=None,name=’Const’)
#创建一个常量tensor,按照给出value来赋值,可以用shape来指定其形状。value可以是一个数,也可以是一个list。
return tf.Variable(initial)
- 卷积和池化
TensorFlow在卷积和池化上有很强的灵活性。我们怎么处理边界?步长应该设多大?在这个实例里,我们会一直使用vanilla版本。我们的卷积使用1步长(stride size),0边距(padding size)的模板,保证输出和输入是同一个大小。我们的池化用简单传统的2x2大小的模板做max pooling。为了代码更简洁,我们把这部分抽象成一个函数。
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
#strides=[1,1,1,1]:指卷积窗口的滑动方式,这里是指逐像素滑动。
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
[5,5,1,32]
:卷积核为5x5的窗口,因为输入图像是一通道灰度图像,所以第三参数为1,使用彩色图像时,一般设置为3,最后32就是指卷积核的数量,为什么要使用这么多卷积核呢?我理解的是,每种卷积只对某些特征敏感,获取的特征很有限,因此将多种不同的卷积核分别对图像进行处理,就能获得更多的特征。每个卷积核按照规则扫描完图像后,就输出一张特征图像(feature map),因此32也指输出的特征图。
strides=[1,1,1,1]
:指卷积窗口的滑动方式,这里是指逐像素滑动。
padding='SAME'
:所谓的padding是为了解决图像边缘部分的像素,很容易想象,当卷积窗口不是一个像素大小时,图像边缘的部分区域是不能覆盖的(或者说卷积窗口覆盖该像素时,部分窗口已经位于图像区域以外了),很简单的做法是先将图像的拓展一下,使得位于边缘区域的像素也能进行卷积。SAME就是一种padding方法,即图像向四周拓展kernel_width/2 和 kernel_height/2个像素。那么这里输出的特征图像的大小就为:28x28x32。
同理[5,5,32,64]可以理解。
- 第一层卷积
现在我们可以开始实现第一层了。它由一个卷积接一个max pooling完成。卷积在每个5x5的patch中算出32个特征。卷积的权重张量形状是[5, 5, 1, 32]
,前两个维度是patch的大小,接着是输入的通道数目,最后是输出的通道数目。 而对于每一个输出通道都有一个对应的偏置量。
W_conv1 = weight_variable([5, 5, 1, 32])#1个输入通道,5×5的卷积核,输出32个通道
b_conv1 = bias_variable([32])#32个输出通道的bias
为了用这一层,我们把x变成一个4d向量,其第2、第3维对应图片的宽、高,最后一维代表图片的颜色通道数(因为是灰度图所以这里的通道数为1,如果是rgb彩色图,则为3)。
x_image = tf.reshape(x, [-1,28,28,1])#处理输入的图片,变成需要的形式
我们把x_image
和权值向量进行卷积,加上偏置项,然后应用ReLU激活函数,最后进行max pooling。
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)#得到32个28×28的矩阵
h_pool1 = max_pool_2x2(h_conv1)#池化得到32个14×14的矩阵
- 第二层卷积
为了构建一个更深的网络,我们会把几个类似的层堆叠起来。第二层中,每个5x5的patch会得到64个特征。
W_conv2 = weight_variable([5, 5, 32, 64])#第一层卷积输出了32个通道,变为第二层卷积的32个输入通道
b_conv2 = bias_variable([64])#64个输出通道的bias
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)#得到64个14×14的矩阵
h_pool2 = max_pool_2x2(h_conv2)#得到64个7×7的矩阵
- 密集连接层
现在,图片尺寸减小到7x7,我们加入一个有1024个神经元的全连接层,用于处理整个图片。我们把池化层输出的张量reshape成一些向量,乘上权重矩阵,加上偏置,然后对其使用ReLU。
W_fc1 = weight_variable([7 * 7 * 64, 1024])#二维的权值张量
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])#7×7×64的矩阵变为宽是7*7*64的张量
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)#的到一个长度为1024的向量
- Dropout
为了减少过拟合,我们在输出层之前加入dropout
。我们用一个placeholder
来代表一个神经元的输出在dropout
中保持不变的概率。这样我们可以在训练过程中启用dropout
,在测试过程中关闭dropout
。 TensorFlow的tf.nn.dropout
操作除了可以屏蔽神经元的输出外,还会自动处理神经元输出值的scale
。所以用dropout
的时候可以不用考虑scale
。
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
#按概率来将x中的一些元素值置零,并将其他的值放大。用于进行dropout操作,一定程度上可以防止过拟合
- 输出层
最后,我们添加一个softmax层,就像前面的单层softmax regression一样。
W_fc2 = weight_variable([1024, 10])#最后一层的权值张量
b_fc2 = bias_variable([10])#输出bias
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)#经过softmax激活后的结果
- 训练和评估模型
为了进行训练和评估,我们使用与之前简单的单层SoftMax神经网络模型几乎相同的一套代码,只是我们会用更加复杂的ADAM优化器来做梯度最速下降,在feed_dict
中加入额外的参数keep_prob
来控制dropout
比例。然后每100次迭代输出一次日志。
cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))#熵的定义,与y相关
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)#使用ADAM方法最小化熵
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
#预测结果与真实值的一致性,这里产生的是一个bool类型的向量
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
#先将bool类型转换为float类型,然后求平均值,即正确的比例
sess.run(tf.initialize_all_variables())#初始化所有变量
for i in range(20000):
batch = mnist.train.next_batch(50)
if i%100 == 0:
train_accuracy = accuracy.eval(feed_dict={ x:batch[0], y_: batch[1], keep_prob: 1.0})
print( "step %d, training accuracy %g"%(i, train_accuracy))
train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})
print ("test accuracy %g"%accuracy.eval(feed_dict={x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))
以上代码,在最终测试集上的准确率大概是99.2%。
目前为止,我们已经学会了用TensorFlow快捷地搭建、训练和评估一个复杂一点儿的深度学习模型。