前言
这篇笔记是StatQuest系列视频教程的第50节,主要内容是讲K邻近算法(K-Nearest neighbors algorithm,缩写为KNN)。K邻近算法是一种对数据进行分类的,非常简单的算法。例如我们已经有了很多对细胞进行分类的数据,那么我们要研究某个细胞属于这些分类中的哪个类别,就需要使用这种算法,如下所示:
K邻近算法基本思想
先看一个简单的案例。
第一步,我们拥有一批数据,这批数据已经进行了分类,在下图中,来源于小肠肿瘤中的这些细胞拥有不同的分类,我们使用PCA对这些细胞进行聚类,如下图所示:
第二步,当我们再往这批数据中添加一个新的细胞时,我们此时并不清楚这个新细胞的分类,因为这个细胞是从另外的一个肿瘤中取出来的,不好归类,如下所示:
第三步:我们计算这个新的细胞离它最近的那个分类(也就是最近的领居“nearest neighbors”),这个细胞就属于这个分类。如果“K最近的邻居(K-nearest neighbors)”中的这个K等于1(这个K表示的是邻居的数目),那么我们就能把这个新的细胞归于这个离它最近的分类中,在这个案例中,这个最近的分类是绿色的。如果K等于11,那我们就需要使用11个最近的邻居,如下所示:
假如这个新的细胞在其它的地方,如下所示:
如果K=11(这个意思表示,最这个点最近的邻居有11个),那么这个新的细胞就位于两类或更多的类中间,我们就把它归于得到“票数”最多的那个类别,那么在这个案例中,有7个最近的邻居是红色,3个最近的邻居是橘黄色,有1个最近的邻居是绿色,由于红色得到的票数最多,那么这个新的细胞就属于红色这一类,如下所示:
热图案例
K邻近算法同样适用于热图,下面的这个热图是用采用层次聚类算法得到的,如下所示:
此时如果我们有一个新的细胞,它的基因表达模式位于热图中浅蓝色区域的中央,如果K=1,那么我们仅仅需要看一下离它最近的细胞,我们就知道这个新的细胞是属于哪个类型的,这种情况下,它属于浅蓝色区域的分类,如果K=5,我们看一下离个细胞最近的邻居,它还是属于这个浅蓝色区域(仔细数一下,浅蓝色区域中有17列),如下所示:
假如这个新的细胞的基因表达模式位于浅蓝色区域的偏左侧的话,如果此时K=11,我们就需要进行一个投票,如下所示:
经过投票发现,在这11个最近的邻居中,有7个位于浅蓝色区域,有4个位于浅绿色区域,因此,我们把这个新细胞类型归于浅蓝色区域,如下所示:
如果这个新的细胞分类正好位于两个区域中央,这个细胞的归类就有两种解决方法:
第一,如果K值是奇数,那么我们就很容易进行计算;
第二,(如果K值是偶数),那么我们就会得到一个比较很麻烦的投票,此时就要靠投硬币来决定这个细胞属于哪个分类了,或者就是不归类,如下所示:
训练数据
在这里我们讲一些简单的机器学习方面的内容,我们把那些用于最初始聚类的数据(这些数据我们已经知道它们是什么分类了)称为“训练数据”(training data),如下所示:
如何选择K值
K值只是算法意义上的数字,它无关生理学或生物学方面的意义,因此在设置K值之前,你或许会尝试设置多设几个K值。在多设几个K值时,此时假定你不清楚一部分训练数据(实际上是知道的)的分类,那么通过K邻近算法(KNN),你对这些未知的训练数据进行分类,进而查看你的数据(此处是非训练数据)的分类情况。
上面的这一段是完全翻译视频中的文字,我是不太理解,但就我自己的理解而言,就先找一批训练数据,这些数据的分类已经很明确了,把这些数据分成2份,分别定义为A和B,其中A用于聚类(这部分数据通常比较大),另外一份B用KNN进行分类(也就是A中分好的类),此时能找出最佳的K值,然后再使用一批新的数据C进行KNN分类。
如果K值比较低(例如K=1或K=2),那么噪音就会比较大,会受到异常值的影响。如果K值过大,虽然会解决K值过小的问题,但是,你也不会想让K值太大,因为如果你只有几个样本,那么运算时间会过长,如下所示: