CS231n-K近邻与线性分类器

CS231n笔记系列(一)

数据驱动的图像分类方式——K近邻与线性分类器(上)

1.Image Classification:a core task in Computer Vision


        为什么图像分类问题在计算机里很困难?语义鸿沟问题。图像在计算机里是一个巨大的表单,可以由长*宽*(R,G,B)表示。难点在于如何处理这些表单里的数字。摄像机的摄影方式可以不同,使图片样式不同,但是被摄对象不变。还有其它问题例如光线问题、被摄对象的形态不同、遮蔽、同类演变等。对于这些问题,我们的解决方法应有鲁棒性。

2.Nearest Neighbor Classifier


        图像分类器是怎样的呢?构建一个三维空间,x轴为种类标签值,但没有一种显式分类器能实现这个过程。传统方法曾尝试勾勒出边界,按边界形状和连结方式进行分类,以此监测物体的某些结构特征。这是不可扩展的学习方法。所以我们现在采用数据驱动的学习方法。我们可以根据被分类对象的数据训练相应的模型,它是和这个对象对应的类,之后可以对你的测试数据基于模式匹配和统计等进行分类。

        分类过程是怎样的呢?假设我们有若干个从CIFAR-10数据集里抽取的例子,我们要从训练集中找一个与这些图像中每个独立图像最相近的近似。我们如何度量“相似”?第一种方法是曼哈顿距离,又称L1距离。我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上,坐标(x1, y1)的i点与坐标(x2, y2)的j点的曼哈顿距离为:

两点间的曼哈顿距离

        在图像中,我们将逐元素比较所有的像素值,计算同一空间位置下的像素值之差,差值全部相加,就得到了相似性。但是这种分类器随着数据规模的扩大分类速度线性减慢。在训练方法和测试方法中我们需要权衡,这种分类器尽管花了大量时间在测试上,但是训练速度很快。无论训练集有多大,我们对每一张测试实例进行分类的计算量是恒定的。(ps:如何使近邻算法分类器加速?近似近邻算法&FLANN实例库?)Nearest Neighbor分类器易于理解,实现简单。其次,算法的训练不需要花时间,因为其训练过程只是将训练集数据存储起来。然而测试要花费大量时间计算,因为每个测试图像需要和所有存储的训练图像进行比较,这显然是一个缺点。在实际应用中,我们关注测试效率远远高于训练效率。其实,我们后续要学习的卷积神经网络在这个权衡上走到了另一个极端:虽然训练花费很多时间,但是一旦训练完成,对新的测试数据进行分类非常快。这样的模式就符合实际使用需求。

       常用的距离是欧几里得距离又称L2距离,计算图像间差值的平方和:

两点间的欧式距离

      那么这一选择到底要如何进行距离的计算呢?一个进行控制的离散选择,我们这个距离的选择我们称为超参数。另一个超参,将近邻推广为最近邻规则分类器KNN,在最近邻规则分类器中检索每张测试图像。一个好的近邻算法要做的事是:在训练集中检索到若干张最相似的图像,然后对他们的标签进行多数表决。

3.k-Nearest Neighbor Classifier


    当k=1的时候,k-Nearest Neighbor分类器就是Nearest Neighbor分类器,从直观感受上就可以看到,更高的k值可以让分类的效果更平滑,使得分类器对于异常值更有抵抗力。需要注意的是,在NN分类器中,异常的数据点(比如:在蓝色区域中的绿点)制造出一个不正确预测的孤岛。5-NN分类器将这些不规则都平滑了,使得它针对测试数据的泛化(generalization能力更好(例子中未展示)。注意,5-NN中也存在一些灰色区域,这些区域是因为近邻标签的最高票数相同导致的(比如:2个邻居是红色,2个邻居是蓝色,还有1个是绿色)。


分类器效果显示图

4. How Do We Set the Hyperparameters?


        如何调优超参?可以尝试不同的值,看哪个表现好就选哪个,但是要特别细心。特别注意:不要用测试集调优。会对测试集过拟合,实际效果可能不好;也等于把测试集并入训练集,不能很好的测试所设计的分类器的泛化性能。

        从训练集中取出一部分数据用来调优,我们称之为验证集,其实就是作为假的测试集来调优。有时候,训练集数量较小(因此验证集的数量更小),人们会使用一种被称为交叉验证的方法,在实际情况下,人们不是很喜欢用交叉验证,主要是因为它会耗费较多的计算资源。一般直接把训练集按照50%-90%的比例分成训练集和验证集。


引用:知乎-智能单元-杜客

CS231n课程笔记翻译:图像分类笔记(上)

CS231n课程笔记翻译:图像分类笔记(下)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容