StatQuest学习笔记18——K邻近算法

前言

这篇笔记是StatQuest系列视频教程的第50节,主要内容是讲K邻近算法(K-Nearest neighbors algorithm,缩写为KNN)。K邻近算法是一种对数据进行分类的,非常简单的算法。例如我们已经有了很多对细胞进行分类的数据,那么我们要研究某个细胞属于这些分类中的哪个类别,就需要使用这种算法,如下所示:

image

K邻近算法基本思想

先看一个简单的案例。

第一步,我们拥有一批数据,这批数据已经进行了分类,在下图中,来源于小肠肿瘤中的这些细胞拥有不同的分类,我们使用PCA对这些细胞进行聚类,如下图所示:

image

第二步,当我们再往这批数据中添加一个新的细胞时,我们此时并不清楚这个新细胞的分类,因为这个细胞是从另外的一个肿瘤中取出来的,不好归类,如下所示:

image

第三步:我们计算这个新的细胞离它最近的那个分类(也就是最近的领居“nearest neighbors”),这个细胞就属于这个分类。如果“K最近的邻居(K-nearest neighbors)”中的这个K等于1(这个K表示的是邻居的数目),那么我们就能把这个新的细胞归于这个离它最近的分类中,在这个案例中,这个最近的分类是绿色的。如果K等于11,那我们就需要使用11个最近的邻居,如下所示:

image

假如这个新的细胞在其它的地方,如下所示:

image

如果K=11(这个意思表示,最这个点最近的邻居有11个),那么这个新的细胞就位于两类或更多的类中间,我们就把它归于得到“票数”最多的那个类别,那么在这个案例中,有7个最近的邻居是红色,3个最近的邻居是橘黄色,有1个最近的邻居是绿色,由于红色得到的票数最多,那么这个新的细胞就属于红色这一类,如下所示:

image

热图案例

K邻近算法同样适用于热图,下面的这个热图是用采用层次聚类算法得到的,如下所示:

image

此时如果我们有一个新的细胞,它的基因表达模式位于热图中浅蓝色区域的中央,如果K=1,那么我们仅仅需要看一下离它最近的细胞,我们就知道这个新的细胞是属于哪个类型的,这种情况下,它属于浅蓝色区域的分类,如果K=5,我们看一下离个细胞最近的邻居,它还是属于这个浅蓝色区域(仔细数一下,浅蓝色区域中有17列),如下所示:

image

假如这个新的细胞的基因表达模式位于浅蓝色区域的偏左侧的话,如果此时K=11,我们就需要进行一个投票,如下所示:

image

经过投票发现,在这11个最近的邻居中,有7个位于浅蓝色区域,有4个位于浅绿色区域,因此,我们把这个新细胞类型归于浅蓝色区域,如下所示:

image

如果这个新的细胞分类正好位于两个区域中央,这个细胞的归类就有两种解决方法:

第一,如果K值是奇数,那么我们就很容易进行计算;

第二,(如果K值是偶数),那么我们就会得到一个比较很麻烦的投票,此时就要靠投硬币来决定这个细胞属于哪个分类了,或者就是不归类,如下所示:

image

训练数据

在这里我们讲一些简单的机器学习方面的内容,我们把那些用于最初始聚类的数据(这些数据我们已经知道它们是什么分类了)称为“训练数据”(training data),如下所示:

image

如何选择K值

K值只是算法意义上的数字,它无关生理学或生物学方面的意义,因此在设置K值之前,你或许会尝试设置多设几个K值。在多设几个K值时,此时假定你不清楚一部分训练数据(实际上是知道的)的分类,那么通过K邻近算法(KNN),你对这些未知的训练数据进行分类,进而查看你的数据(此处是非训练数据)的分类情况。

上面的这一段是完全翻译视频中的文字,我是不太理解,但就我自己的理解而言,就先找一批训练数据,这些数据的分类已经很明确了,把这些数据分成2份,分别定义为A和B,其中A用于聚类(这部分数据通常比较大),另外一份B用KNN进行分类(也就是A中分好的类),此时能找出最佳的K值,然后再使用一批新的数据C进行KNN分类。

如果K值比较低(例如K=1或K=2),那么噪音就会比较大,会受到异常值的影响。如果K值过大,虽然会解决K值过小的问题,但是,你也不会想让K值太大,因为如果你只有几个样本,那么运算时间会过长,如下所示:

image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,723评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,080评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,604评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,440评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,431评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,499评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,893评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,541评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,751评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,547评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,619评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,320评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,890评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,896评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,137评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,796评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,335评论 2 342

推荐阅读更多精彩内容