深度学习第一弹 —— MNIST for the Newbies

写在前面

  • [x] dsafa

最近抽时间看一些 AI 方面的东西,说实话,我一开始对这方面其实不是很重视的,毕竟现在发展还是处于很初级的阶段。但因为本身职业是跟金融有关的,最近看了不少产业相关的资料,也经常研究国家在各个产业链上的政策,以及经常看到不少国内外企业在 AI 方面的布局和成绩,觉得这个方向还是可圈可点的。所以还是准备花些时间掌握一些这方面的底层原理,做到知其然知其所以然。

不过其实我内心还是挺害怕的,现在科技这么发达,没准儿到我 ~60 来岁的时候,真会出现 《I, Robot》电影中的那些场景。《I, Robot》是 2004 年我最喜欢的演员 威尔斯密斯 主演的一部讲机器人觉醒的科幻片,如今过去13年,想想这些导演的在当时的思维其实还是很具有前瞻性的。

robot_1.jpg

1. AI, 深度学习,神经网络,机器学习

现在整个行业上其实还是略显浮躁的,搞过线性回归的人说自己懂机器学习,搞过机器学习的说自己研究神经网络,搞过神经网络的说自己做深度学习,搞深度学习的直接说自己是 AI 专家了。

不过话也说来,其实 AI, 深度学习,神经网络,机器学习 这四个方面目前也没有非常明晰的分类标准,或者说,也许在不久的某一天,都不存在这样的分类了,也许到时候直接说成 AI 的不同等级 吧。

所以在表述这个问题上,我更倾向于交流做过的模型,研究过的模型。

2. 所以 MNIST 是个啥

在很多书,在线培训网站上,基本上涉及到神经网络,深度学习,AI 的内容,都是以 MNIST 例子来开讲的,同时很多讲这些主题的 blog,也几乎没有哪篇没有谈到 MNIST。不过话说,我估计应该没多少人知道 MNIST 是啥的缩写吧,这也是我很强调知其然知其所以然的原因,对新知识,新事物的学习过程,不应该是被饲养般的全吞下去,应该细细咀嚼,慢慢品尝其中的韵味。

所以既然提到 AI,大家都先以 MNIST 作为入门例子,就连大 google 开放的 tensorflow 也是以 MNIST 作为开篇例子的,那 MNIST 究竟是个啥呢?

MNIST 是 Mixed National Institute of Standards and Technology database 的简称,从英文原意上还挺难知道到底是干嘛的,不过从官方网站上最终还是找到了它的具体含义 http://yann.lecun.com/exdb/mnist/,MNIST 是一个数据库,这个数据库中存储了各个国家地区,不同标准的手写数字,并且是存储的内容都是结果标准化处理了的,专门用于关于手写体识别方面的技术应用。

3. MNIST 数据结构啥样子呢

介绍 MNIST 的原理之前,我们先来看看它的数据结构是个啥样吧。这里我们直接复用 tensorflow 官方的代码,链接在这儿:MNIST For ML Beginners。或者也可以直接看我的 github 上的代码:https://github.com/litaotao/tensorflow_guide/blob/master/Official%20Document%20-%20Section%201%20:%20get%20started/MNIST%20For%20ML%20Beginners.ipynb

数据结构可以直接看下面的截图,我们分两部分来说:

  • mnist.train.image: 是一个 ndarray,里面每一个元素是用来训练的图片数据
  • mnist.train.image[index]: 是一个大小为 (784, ) 的 ndarray,里面每一个元素代表这个图片【标准化为 28*28 大小的正方形】在每个像素框中的像素值【或者是灰度值】
  • mnist.train.labels: 是一个 ndarray,里面的每一个元素指 mnist.train.image 中根据下标对应的图片真实代表值
  • mnist.train.labels[index]: 是一个大小为 (10, ) 的 ndarray,里面每一个元素只有 0,1 两种取值,代表了 mnist.train.image[index] 这个图片对应的真实值
robot_2_mnist.jpg

举个例子,如上图所示:

我们看下 mnist.train.images[0] 的具体内容,其代表一张标准化为 (28, 28) 的手写数字图片在每一个像素上的值,然后 mnist.train.labels[0]的值为 [ 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],其中第 1 个元素【下标为 1,序号从 0 开始哦】为 1,其他皆为 0,代表 mnist.train.images[0] 这张图片代表的真实值是 1。如果 mnist.train.labels[0] 的值为 [ 0., 0., 0., 0., 0., 5., 0., 0., 0., 0.],其中第 5 个元素【下标为 5,序号从 0 开始哦】为 1,其他皆为 0,则说明 mnist.train.images[0] 这张图片代表的真实值是 1。

当然为了验证,可以把 mnist.train.images[0] 这张图画出来看看:

robot_3_mnist_pixel.jpg

看到这里,再理解下面这两张图应该就比较轻松了吧:

robot_3_mnist-train-xs.png

robot_4_mnist-train-ys.png

4. 那么 softmax 又是个什么鬼

关于 softmax 其实我一开始也挺纳闷的,特别是看到一堆公式后,不过现在回顾来看,其实初学时也不必过于深究。现在可以先知道它和一般的回归有啥区别,以及它存在的意义及用途,之后再慢慢琢磨那些公式也可。因为有些东西,只有用起来才能理解其中的含义。

我们常见的回归一般都是这种形式: y = A * X + b,即给定一个 x 序列,输出一个特定的值。而 softmax 是指给定一个 x 序列,输出该序列符合某个结果的概率或者置信度。比如说,现在我们 x 是一个 28 * 28 = 784 长的一个 list,代表一张手写数字的像素序列,经过 softmax 回归后,可以得到这个像素序列分别属于 0 ~ 9 中,每个数字的概率。

5. 所以,是时候揭开这个公式的神秘面纱了

在 tensorflow 的 MNIST For ML Beginners 中,最后的模型是这样的:y = tf.nn.softmax(tf.matmul(x, W) + b),其中核心部分就是理解 tf.matmul(x, W) + b 这个内部模型的含义,以及该模型输出的结果,为了方便,我把矩阵 x, W 画出来供大家理解一下。

  • 内部模型:y = tf.matmul(x, W) + b

  • y: 结果矩阵


    robot_8_mnist_equation.png
  • x: 训练样本矩阵

robot_6_mnist_pixel.png
  • W: 权重矩阵,大小 768 x 10,相当于 10 个列向量,每个列向量代表对结果 0 ~ 9 的权重


    robot_5_mnist_pixel.png
  • b: bias 向量,代码中只是一个行向量,但在实际相加的时候,需要两个向量的shape 一样,tensorflow 中会自动根据矩阵结构来进行扩展,所以最后进行计算的时候实际上 b 是一个 n x 10 的矩阵,但是每一个行向量都是相同的。

robot_10_mnist_pixel.png
  • 所以最后的公式其实是酱紫的


    robot_9_mnist_equation.png

6. 到这里了,还该做些啥

到这里了,关于 MNIST 的话题算是差不多了,不过这部分其实还是有很多细节可以继续深究,优化的,特别是针对专门做这方面的研究的人来说。接下来的话,可以考虑考虑实现几个例子,然后继续学习后面的内容。就跟游戏打怪一样,一般一个游戏的主线只占了整个游戏情节的 70% 左右,如果一开始就要把所有 npc 搞一遍,把所有支线都通关,那进度肯定会慢很多了;所以我都喜欢先把主线走完,中途当然也可以偶尔过过支线内容,然后最后再返回来做支线任务,会有不同的感受的。

7. 最后的最后

博主其实只了解点机器学习,其他深度学习,神经网络和 AI 的东西很欠缺,所以本文或之后相关的文章出现错误不是巧合,而是很正常的哈,望各位大咖批斗轻点,哈哈。

附注

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • tensorflow中文社区对官方文档进行了完整翻译。鉴于官方更新不少内容,而现有的翻译基本上都已过时。故本人对更...
    周乘阅读 2,698评论 0 14
  • 金指尖的花园阅读 254评论 0 2
  • iOS 开发中经常会遇到遇到如下需求,标题长度不定,两边图片自然就需要根据标题长度进行宽度上的拉伸 图片拉伸主要有...
    coderSuper阅读 597评论 0 0
  • 当品牌效应和服务品质做到极致的时候,不用担心,天下谁人不识君。 所以不要去日夜挂念你的广告市场宣传有没有得力和结果...
    14b113d1a158阅读 311评论 0 0