1 手写字体MNIST数据集介绍
当我们开始学习编程的时候,第一件事往往是学习打印“Hello World”,机器学习(深度学习)入门的MNIST就相当于编程入门的“Hello World”。
MNIST是一个入门级的计算机视觉数据集,总共有70000张图片,其中60000张图片作为训练数据,10000张图片作为测试数据。(实际上,TensorFlow将60000张图片的训练数据拆分成了两部分,一部分是55000张的图片训练数据,另一部分是5000张的图片验证数据。)MNIST数据集官方网址为:http://yann.lecun.com/exdb/mnist/ ,在MNIST数据集中的每一张图片都代表了0-9中的一个数字,每张图片的像素都是28x28,且数字都会出现在图片的正中间。
我们把这个数组展开成一个一维数组,长度是28x28=784,以方便TensorFlow将图片的像素矩阵提供给神经网络的输入层。这样的话,训练集中的图片就相当于一个[60000,784]的张量,第一个维度数字用来索引图片,第二个维度数字用来索引每张图片中的像素点。在此张量里的每一个元素,都表示某张图片里的某个像素的强度值,值介于0和1之间。
相对应的MNIST数据集的标签是介于0到9的数字,用来描述给定图片里表示的数字。使用one-hot编码,一个one-hot向量除了某一位的数字是1以外其余各维度数字都是0。数字n将表示成一个只有在第n维度(从0开始)数字为1的10维向量。比如,标签3将表示成[0,0,0,1,0,0,0,0,0,0,0]。因此,训练集中的标签是一个[60000,10] 的张量。
2 Softmax回归
MNIST的每一张图片都表示一个数字,我们希望得到给定图片代表每个数字的概率。比如,一张包含9的图片,模型可能预测为数字9的概率是80%,预测为数字8的概率是10%(因为8和9都有上半部分的小圆),然后给予它代表其他数字的概率更小的值。
对于二分类问题,可以使用Logistic回归模型,多分类问题可以使用Softmax回归。Softmax回归模型是Logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 y 可以取两个以上的值,Softmax模型可以求出不同标签值对应的分配概率。对于MNIST手写数字分类问题,其目的是辨识10个不同的单个数字,所以可以使用Softmax回归模型。
为了得到一张给定图片属于某个特定数字类的证据(evidence),我们对图片像素值进行加权求和。如果这个像素具有很强的证据说明这张图片不属于该类,那么相应的权值为负数,相反如果这个像素拥有有利的证据支持这张图片属于这个类,那么权值是正数。
下面的图片显示了一个模型学习到的图片上每个像素对于特定数字类的权值。红色代表负数权值,蓝色代表正数权值。
我们也需要加入一个额外的偏置量(bias),因为输入往往会带有一些无关的干扰量。
相关的计算公式为:
这里的softmax可看成是一个激励(activation)函数,把我们定义的线性函数的输出转换成我们想要的样式,也就是关于10个数字类的概率分布。因此,给定一张图片,它对于每一个数字的吻合度可以被softmax函数转换成为一个概率值。
假设预测模型的结果总共有A、B、C三类,一个样本经过权重和偏差的作用之后,得到的结果为[-1,2,3],那么对应的softmax值为[exp(-1),exp(2),exp(3)]=[0.36788,7.38906,20.08554],总和为0.36788+7.38906+20.08554=27.84248,归一化之后的结果为[0.36788/27.84248,7.38906/27.84248,20.08554/27.84248]=[0.013213,0.269429,0.717358],也就是该样本属于A、B、C类的概率分别为0.013213,0.269429,0.717358。
实际上,在计算过程中,为了防止出现数据溢出(+∞),在进行softmax的时候,会在分母求和的时候加上一个很小的数字,比如10的-8次方。
3 代码讲解
关于Windows系统下安装TensorFlow,参考链接:http://www.jianshu.com/p/c3a4a0ff82a6。
# 1 导入相关包
from time import time # 计算训练模型总时间
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
# 2 加载mnist数据
start_time = time()
mnist = input_data.read_data_sets('MNIST_data/', one_hot=True)
# 3 定义模型参数(权重、偏差)及占位符
x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
# 4 计算y的预测值,定义y标签值的占位符
y_predict = tf.nn.softmax(tf.matmul(x, W) + b)
y_label = tf.placeholder(tf.float32, [None, 10])
# 5 定义交叉熵损失,选择梯度下降优化方法
cross_entropy = tf.reduce_mean(-tf.reduce_sum( y_label * tf.log(y_predict), axis=[1]))
train_step = tf.train.GradientDescentOptimizer(learning_rate=0.5).minimize(cross_entropy)
# 6 创建会话,初始化所有变量
init = tf.global_variables_initializer()
sess = tf.InteractiveSession()
sess.run(init)
# 7 用批数据循环训练模型1000次,评估模型
for _ in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_label: batch_ys})
correct_predict = tf.equal(tf.argmax(y_predict,1), tf.argmax(y_label, 1))
accuracy = tf.reduce_mean(tf.cast(correct_predict, dtype='float'))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_label: mnist.test.labels}))
print('模型训练总耗时:%.4f' %(time() - start_time)+'秒')
sess.close()
第6步和第7步也可以合并为:
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
for _ in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_label: batch_ys})
correct_predict = tf.equal(tf.argmax(y_predict,1), tf.argmax(y_label, 1))
accuracy = tf.reduce_mean(tf.cast(correct_predict, dtype='float'))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_label: mnist.test.labels}))
print('模型训练总耗时:%.4f' %(time() - start_time)+'秒')