KNN(K-nearest-neighbor)-K最近邻算法
1、算法简介
1)已知训练样本(分类);
2)对测试样本,基于某种距离度量找出训练样本中与其距离最近的K个样本;
3)基于K个训练样本中出现概率最高的类别作为测试样本的分类结果;
2、针对算法可以优化的内容:
1)距离度量方式:
2)K值得选取:
3、存在的问题:
1)高维样本空间下的样本稀疏、距离计算困难,这种情况下导致的维数灾难,引出了降维
2)降维效果的衡量,通常对比降维后学习器的性能是否优于降维前的性能,如果性能有所提升,通常称降维起到了效果
4、降维方法介绍
1)主成分分析(Principal Component Analysis)
2)核主成分分析(Kernelized Principal Componet Analysis)
基于核技巧对线性降维方法进行核化
3) 流行学习(借鉴拓扑流形概念)ff
a、等度量映射(涉及:Isomap算法):高维空间往低维空间映射
b、局部线性嵌入(Locally Linear Embedding)
5、度量学习
学习一个合适的距离度量
6、代码实现
待补充