深度学习第一弹 —— MNIST for the Newbies

写在前面

[x] dsafa

最近抽时间看一些 AI 方面的东西，说实话，我一开始对这方面其实不是很重视的，毕竟现在发展还是处于很初级的阶段。但因为本身职业是跟金融有关的，最近看了不少产业相关的资料，也经常研究国家在各个产业链上的政策，以及经常看到不少国内外企业在 AI 方面的布局和成绩，觉得这个方向还是可圈可点的。所以还是准备花些时间掌握一些这方面的底层原理，做到知其然知其所以然。

不过其实我内心还是挺害怕的，现在科技这么发达，没准儿到我～60 来岁的时候，真会出现《I, Robot》电影中的那些场景。《I, Robot》是 2004 年我最喜欢的演员威尔斯密斯主演的一部讲机器人觉醒的科幻片，如今过去13年，想想这些导演的在当时的思维其实还是很具有前瞻性的。

robot_1.jpg

1. AI, 深度学习，神经网络，机器学习

现在整个行业上其实还是略显浮躁的，搞过线性回归的人说自己懂机器学习，搞过机器学习的说自己研究神经网络，搞过神经网络的说自己做深度学习，搞深度学习的直接说自己是 AI 专家了。

不过话也说来，其实 AI, 深度学习，神经网络，机器学习 这四个方面目前也没有非常明晰的分类标准，或者说，也许在不久的某一天，都不存在这样的分类了，也许到时候直接说成 AI 的不同等级 吧。

所以在表述这个问题上，我更倾向于交流做过的模型，研究过的模型。

2. 所以 MNIST 是个啥

在很多书，在线培训网站上，基本上涉及到神经网络，深度学习，AI 的内容，都是以 MNIST 例子来开讲的，同时很多讲这些主题的 blog，也几乎没有哪篇没有谈到 MNIST。不过话说，我估计应该没多少人知道 MNIST 是啥的缩写吧，这也是我很强调知其然知其所以然的原因，对新知识，新事物的学习过程，不应该是被饲养般的全吞下去，应该细细咀嚼，慢慢品尝其中的韵味。

所以既然提到 AI，大家都先以 MNIST 作为入门例子，就连大 google 开放的 tensorflow 也是以 MNIST 作为开篇例子的，那 MNIST 究竟是个啥呢？

MNIST 是 Mixed National Institute of Standards and Technology database 的简称，从英文原意上还挺难知道到底是干嘛的，不过从官方网站上最终还是找到了它的具体含义 http://yann.lecun.com/exdb/mnist/，MNIST 是一个数据库，这个数据库中存储了各个国家地区，不同标准的手写数字，并且是存储的内容都是结果标准化处理了的，专门用于关于手写体识别方面的技术应用。

3. MNIST 数据结构啥样子呢

介绍 MNIST 的原理之前，我们先来看看它的数据结构是个啥样吧。这里我们直接复用 tensorflow 官方的代码，链接在这儿：MNIST For ML Beginners。或者也可以直接看我的 github 上的代码：https://github.com/litaotao/tensorflow_guide/blob/master/Official%20Document%20-%20Section%201%20:%20get%20started/MNIST%20For%20ML%20Beginners.ipynb

数据结构可以直接看下面的截图，我们分两部分来说：

mnist.train.image: 是一个 ndarray，里面每一个元素是用来训练的图片数据
mnist.train.image[index]: 是一个大小为 (784, ) 的 ndarray，里面每一个元素代表这个图片【标准化为 28*28 大小的正方形】在每个像素框中的像素值【或者是灰度值】
mnist.train.labels: 是一个 ndarray，里面的每一个元素指 mnist.train.image 中根据下标对应的图片真实代表值
mnist.train.labels[index]: 是一个大小为 (10, ) 的 ndarray，里面每一个元素只有 0，1 两种取值，代表了 mnist.train.image[index] 这个图片对应的真实值

robot_2_mnist.jpg

举个例子，如上图所示：

我们看下 mnist.train.images[0] 的具体内容，其代表一张标准化为 (28, 28) 的手写数字图片在每一个像素上的值，然后 mnist.train.labels[0]的值为 [ 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.]，其中第 1 个元素【下标为 1，序号从 0 开始哦】为 1，其他皆为 0，代表 mnist.train.images[0] 这张图片代表的真实值是 1。如果 mnist.train.labels[0] 的值为 [ 0., 0., 0., 0., 0., 5., 0., 0., 0., 0.]，其中第 5 个元素【下标为 5，序号从 0 开始哦】为 1，其他皆为 0，则说明 mnist.train.images[0] 这张图片代表的真实值是 1。

当然为了验证，可以把 mnist.train.images[0] 这张图画出来看看：

robot_3_mnist_pixel.jpg

看到这里，再理解下面这两张图应该就比较轻松了吧：

robot_3_mnist-train-xs.png

robot_4_mnist-train-ys.png

4. 那么 softmax 又是个什么鬼

关于 softmax 其实我一开始也挺纳闷的，特别是看到一堆公式后，不过现在回顾来看，其实初学时也不必过于深究。现在可以先知道它和一般的回归有啥区别，以及它存在的意义及用途，之后再慢慢琢磨那些公式也可。因为有些东西，只有用起来才能理解其中的含义。

我们常见的回归一般都是这种形式： y = A * X + b，即给定一个 x 序列，输出一个特定的值。而 softmax 是指给定一个 x 序列，输出该序列符合某个结果的概率或者置信度。比如说，现在我们 x 是一个 28 * 28 = 784 长的一个 list，代表一张手写数字的像素序列，经过 softmax 回归后，可以得到这个像素序列分别属于 0 ～ 9 中，每个数字的概率。

5. 所以，是时候揭开这个公式的神秘面纱了

在 tensorflow 的 MNIST For ML Beginners 中，最后的模型是这样的：y = tf.nn.softmax(tf.matmul(x, W) + b)，其中核心部分就是理解 tf.matmul(x, W) + b 这个内部模型的含义，以及该模型输出的结果，为了方便，我把矩阵 x, W 画出来供大家理解一下。

内部模型：y = tf.matmul(x, W) + b
y: 结果矩阵

robot_8_mnist_equation.png
x: 训练样本矩阵

robot_6_mnist_pixel.png

W: 权重矩阵，大小 768 x 10，相当于 10 个列向量，每个列向量代表对结果 0 ~ 9 的权重

robot_5_mnist_pixel.png
b: bias 向量，代码中只是一个行向量，但在实际相加的时候，需要两个向量的shape 一样，tensorflow 中会自动根据矩阵结构来进行扩展，所以最后进行计算的时候实际上 b 是一个 n x 10 的矩阵，但是每一个行向量都是相同的。

robot_10_mnist_pixel.png

所以最后的公式其实是酱紫的

robot_9_mnist_equation.png

6. 到这里了，还该做些啥

到这里了，关于 MNIST 的话题算是差不多了，不过这部分其实还是有很多细节可以继续深究，优化的，特别是针对专门做这方面的研究的人来说。接下来的话，可以考虑考虑实现几个例子，然后继续学习后面的内容。就跟游戏打怪一样，一般一个游戏的主线只占了整个游戏情节的 70% 左右，如果一开始就要把所有 npc 搞一遍，把所有支线都通关，那进度肯定会慢很多了；所以我都喜欢先把主线走完，中途当然也可以偶尔过过支线内容，然后最后再返回来做支线任务，会有不同的感受的。

7. 最后的最后

博主其实只了解点机器学习，其他深度学习，神经网络和 AI 的东西很欠缺，所以本文或之后相关的文章出现错误不是巧合，而是很正常的哈，望各位大咖批斗轻点，哈哈。

深度学习第一弹 —— MNIST for the Newbies

深度学习第一弹 —— MNIST for the Newbies

写在前面

1. AI, 深度学习，神经网络，机器学习

2. 所以 MNIST 是个啥

3. MNIST 数据结构啥样子呢

4. 那么 softmax 又是个什么鬼

5. 所以，是时候揭开这个公式的神秘面纱了

6. 到这里了，还该做些啥

7. 最后的最后

附注

推荐阅读更多精彩内容