K-邻近算法
采用测量不同特征值之间的距离来进行分类
- Ad:精度高,对异常值不敏感,无数据输入假定
- Na:计算复杂度高,空间复杂度高
KNN原理
存在样本集,每个数据都存在标签,输入无标签的新数据后,算法提取出特征最相似的标签。
一般选取前K个数据,通常K不大于20,最后选择K个最相似的数据中出现次数最多的分类,作为新数据的分类标签。
适用
数值型和标称型
算法流程
收集数据
any method准备数据
计算距离数值,最好为格式化的数据分析数据
any method训练算法
不适用KNN算法测试算法
计算错误率使用算法
实际应用
�