scikit-learn--Nearest Neighbors(最近邻)

sklearn.neighbors提供基于邻居的有监督和无监督的学习方法。无监督最近邻方法是很多学习方法的基础，特别是流形学习和谱聚类。有监督的最近邻方法包括：离散数据的分类、连续数据的回归。
最近邻方法的原理是，找到指定数量的最近样本点，然后根据这些点去预测新的点。样本点的数量可以由用户定义（k-最近邻）或者基于点的局部密度。距离度量标准可以有很多种，欧式距离是最常用的选择。基于邻居的方法被称为non-generalizing machine learning，因为它只是“记住”训练数据（可能转化为一个快速的索引结构，如BallTree或KDTree）。
尽管很简单，但是最近邻方法能解决大量分类和回归问题，包括手写数字或卫星图像识别，作为一种非参数方法，在分类边界不规则的情况下通常是有效的。

无监督的最近邻

NearestNeighbors 执行无监督的最近邻方法，有三种不同的最近邻算法：BallTree、KDTree、a brute-force algorithm based on routines in sklearn.metrics.pairwise，邻居的搜索算法通过关键词 ‘algorithm’ 控制，选项包括['auto', 'ball_tree', 'kd_tree', 'brute']，当设置为‘auto’时，算法将通过训练数据决定最好的方法。
Warning：在最近邻算法中，当有两个点和预测点的距离相同但标签不同时，结果将依赖点在训练数据中的顺序。

KDTree和BallTree

可以使用KDTree或BallTree直接发现最近邻。
KDTree和BallTree的详细解释：
http://blog.csdn.net/skyline0623/article/details/8154911

最近邻算法

Brute Force

快速计算最近邻是机器学习中一个活跃的研究领域。最简单的方法是计算数据集中每两个点之间的距离，在小型数据集上，brute-force很有竞争力，然而随着样本数的增长，brute-force变得不可行。

KDTree

为了解决brute-force方法计算效率低下，发明了各种基于树的数据结构。一般情况下，这些结构通过有效编码汇总样本距离信息，来减少所需的距离计算量。基本思想是，如果A离B比较远，B 离C比较近，所以A 离C比较远，而不用明确计算。

构建k-d树（createKDTree）

输入：数据点集Data-set和其所在的空间Range
输出：Kd，类型为k-d tree
1.If Data-set为空，则返回空的k-d tree
2.调用节点生成程序：
（1）确定split域：对于所有描述子数据（特征矢量），统计它们在每个维上的数据方差。
以SURF特征为例，描述子为64维，可计算64个方差。挑选出最大值，对应的维就是split域的值。
数据方差大表明沿该坐标轴方向上的数据分散得比较开，在这个方向上进行数据分割有较好的分辨率；
（2）确定Node-data域：数据点集Data-set按其第split域的值排序。
位于正中间的那个数据点被选为Node-data。此时新的Data-set' = Data-set\Node-data（除去其中Node-data这一点）。
3.dataleft = {d属于Data-set' && d[split] ≤ Node-data[split]}
Left_Range = {Range && dataleft} dataright = {d属于Data-set' && d[split] > Node-data[split]}
Right_Range = {Range && dataright}
4.left = 由（dataleft，Left_Range）建立的k-d tree，即递归调用createKDTree（dataleft，Left_
Range）。并设置left的parent域为Kd；
right = 由（dataright，Right_Range）建立的k-d tree，即调用createKDTree（dataright，Right_
Range）。并设置right的parent域为Kd。

查找算法

从root节点开始，DFS搜索直到叶子节点，同时在stack中顺序存储已经访问的节点。
如果搜索到叶子节点，当前的叶子节点被设为最近邻节点。
然后通过stack回溯:
如果当前点的距离比最近邻点距离近，更新最近邻节点.
然后检查以最近距离为半径的圆是否和父节点的超平面相交.
如果相交，则必须到父节点的另外一侧，用同样的DFS搜索法，开始检查最近邻节点。
如果不相交，则继续往上回溯，而父节点的另一侧子节点都被淘汰，不再考虑的范围中.
当搜索回到root节点时，搜索完成，得到最近邻节点。

选择方差最大的维度作为当前节点的划分维度，方差越大，说明这个维度上的数据波动越大，也就说明了他们就越不可能属于同一空间，需要在这个维度上对数据点进行划分。KDTree在维度小于20的情况下搜索是非常快的。

BallTree

为了解决高维问题，发明了BallTree。KDTree沿着笛卡尔轴划分数据，BallTree使用超球面。虽然建立树的成本大于KDTree，但是在高维数据上非常有效。
BallTree 递归地将数据划分成一个质心C和半径R定义的节点，使得每个点位于由R和C定义的超球体内。通过使用三角不等式减少搜索次数。
有了这个设置，测试点和质心之间的距离计算，已经足够确定测试点和这个节点内所有点的距离的上界和下界。由于BallTree 节点的球形几何形状，它可以执行高维的KD树，但实际的性能是高度依赖于训练数据的结构。

叶子大小

Brute force 在小样本上比树结构更高效，这解释了BallTree和KDTree 在叶子节点内部转换到Brute force 搜索。这种转换可以通过参数 leaf_size 设置，这个参数有很多影响：
创建时间：比较大的leaf_size ，创建比较快，因为需要创建的节点变少；
查询时间：默认 leaf_size=30
内存：随着leaf_size 增加，存储一棵树所需要的内存是下降的，在BallTree中这非常重要。BallTree 需要的内存空间近似是训练数据规模的1/leaf_size。

Nearest Centroid Classifier

Approximate Nearest Neighbors

来源：http://scikit-learn.org/stable/modules/neighbors.html

最后编辑于：2017.12.08 01:52:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,898评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,401评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,058评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,539评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,382评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,319评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,706评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,370评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,664评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,715评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,476评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,326评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,730评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,003评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,275评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,683评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,877评论 2赞 335

scikit-learn--Nearest Neighbors(最近邻)

scikit-learn--Nearest Neighbors(最近邻)

无监督的最近邻

KDTree和BallTree

最近邻分类

最近邻回归

最近邻算法

Brute Force

KDTree

BallTree

最近邻算法选择

叶子大小

Nearest Centroid Classifier

Approximate Nearest Neighbors

推荐阅读更多精彩内容