数据分析4-机器学习1-近邻算法KNN(K-NearestNeighbor)

1.算法概述

邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。

2.算法特点

KNN近邻算法(监督学习-分类方法)
优点:精度高,对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高
适用数据范围:数值型和标称型

数值型:连续型数据(变量可从无限的数字集合中取值)
标称型:离散型数据(变量可从有限的集合中取值)

K值对KNN决策过程的影响

当K为3时,绿色圆圈的分类应为红色三角形
当K为5时,绿色圆圈的分类应为蓝色正方形

注意1:K一般取值不大于20.k作为参数对模型的拟合度变化有很大的影响。

3.KNN的一般流程

KNN的一般流程

4. 实例解释

4.1 安装KNN包

安装KNN包

4.2 修改实例代码

随包提供的KNN.py代码是基于Python2.6版本的,在我3.6.3版本上运行时会出现代码不兼容的问题、需要修改3.0版本的兼容问题

缩进问题

Print函数问题

Python3.0版本不再对空格缩进进行兼容、统一使用tab缩进。
Python3.0版本的Print函数都需要用括号引入

4.3 实例背景

以电影分类为例子,使用k-近邻算法分类爱情片和动作片。有人曾经统计过很多电影的打斗镜头和接吻镜头,下图显示了6部电影的打斗和接吻镜头数。 假如有一部未看过的电影,如何确定它是爱情片还是动作片呢?


现有样本分析

①首先需要统计这个未知电影存在多少个打斗镜头和接吻镜头,下图中问号位置是该未知电影出现的镜头数


训练数据

②之后计算未知电影与样本集中其他电影的距离(相似度),具体算法先忽略,结果如下表所示:
计算结果

③将相似度列表排序,选出前k个最相似的样本。此处我们假设k=3,将上表中的相似度进行排序后前3分别是:He’s Not Really into Dudes,Beautiful Woman,California Man。
④统计最相似样本的分类。此处很容易知道这3个样本均为爱情片。
⑤将分类最多的类别作为未知电影的分类。那么我们就得出结论,未知电影属于爱情片。

4.4 代码示例

代码已上传至github仓库

import KNN
import matplotlib.pyplot as plt
import operator
from numpy import *


def create_data():

    # 训练数据
    # [Movie Title]             [number of FightScene]    [number of KissScene]     [Type]
    # California Man                      3                       104                LOVE
    # He's Not Realy int Dudes            2                       100                LOVE
    # Beatiful Women                      1                       81                 LOVE
    # Kevin LongBlade                     101                     10                 ACTION
    # Robo Slayer 3000                    99                      5                  ACTION
    # Amped 2                             98                      2                  ACTION
    # ?                                   18                      90                <UNKNOWN>

    group = array([[3, 104], [2, 100], [1, 81], [101, 10], [99, 5], [98, 2]])
    labels = ['LOVE', 'LOVE', 'LOVE', 'ACTION', 'ACTION', 'ACTION']
    return group, labels


def demo():
    group, labels = create_data()
    # [[3 104]
    #  [2 100]
    #  [1 81]
    #  [101 10]
    #  [99 5]
    #  [98 2]]
    # print(group)
    # ['LOVE', 'LOVE', 'LOVE', 'ACTION', 'ACTION', 'ACTION']
    # print(labels)

    # 使用模型
    title = input("请输入电影的名字")
    number_of_fight_scene = int(input("请输入打斗场面的镜头数(0-1000)"))
    number_of_kiss_scene = int(input("请输入亲吻场面的镜头数(0-1000)"))
    show_figure([number_of_fight_scene, number_of_kiss_scene], group)
    predicate = classify([number_of_fight_scene, number_of_kiss_scene], group, labels, 3)
    print('%s 的类型为 %s' % (title, predicate))


def show_figure(inX, dataSet):
    # 输入数据的分布状况
    fig = plt.figure()
    ax = fig.add_subplot(1, 1, 1)
    ax.scatter(dataSet[:, 0][0:3], dataSet[:, 1][0:3], c='r', marker='o')
    ax.scatter(dataSet[:, 0][3:6], dataSet[:, 1][3:6], c='g', marker='o')
    ax.scatter(inX[0], inX[1], c='b', marker='o')
    plt.xlabel('fightscene')
    plt.ylabel('kissscene')
    plt.title('KNN')
    plt.show()


def classify(inX, dataSet, labels, k):
    # KNN的主要实现方法
    # 下面的求距离过程就是按照欧氏距离的公式计算的。
    # 即 根号(x^2+y^2)

    # [50, 60]
    print(inX)
    # 获取训练样本的大小
    dataSetSize = dataSet.shape[0]
    # tile属于numpy模块下边的函数
    # tile(A, reps)返回一个shape=reps的矩阵,矩阵的每个元素是A
    # 比如 A=[0,1,2] 那么,tile(A, 2)= [0, 1, 2, 0, 1, 2]
    # tile(A,(2,2)) = [[0, 1, 2, 0, 1, 2],
    # [0, 1, 2, 0, 1, 2]]
    # tile(A,(2,1,2)) = [[[0, 1, 2, 0, 1, 2]],
    # [[0, 1, 2, 0, 1, 2]]]
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    # [[47 - 44]
    #  [48 - 40]
    #  [49 - 21]
    #  [-51 50]
    #  [-49 55]
    #  [-48  58]]
    print(diffMat)
    sqDiffMat = diffMat ** 2
    # [[2209 1936]
    #  [2304 1600]
    #  [2401 441]
    #  [2601 2500]
    #  [2401 3025]
    #  [2304 3364]]
    print(sqDiffMat)
    # axis=1表示按照横轴,sum表示累加,即按照行进行累加。
    sqDistances = sqDiffMat.sum(axis=1)
    # [4145 3904 2842 5101 5426 5668]
    print(sqDistances)
    distances = sqDistances ** 0.5
    # [64.38167441 62.48199741 53.31041174 71.42128534 73.66138744 75.2861209 ]
    print(distances)
    # 按照升序进行快速排序,返回的是原数组的下标。
    # 比如,x = [30, 10, 20, 40]
    # 升序排序后应该是[10,20,30,40],他们的原下标是[1,2,0,3]
    # 那么,numpy.argsort(x) = [1, 2, 0, 3]
    sortedDistIndicies = distances.argsort()
    # [2 1 0 3 4 5]
    print(sortedDistIndicies)

    # 存放最终的分类结果及相应的结果投票数
    classCount = {}
    for i in range(k):
        print(sortedDistIndicies[i])
        voteIlabel = labels[sortedDistIndicies[i]]
        print(voteIlabel)
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
        print(classCount)
        # 投票过程,就是统计前k个最近的样本所属类别包含的样本个数
        # 2
        # LOVE
        # {'LOVE': 1}
        # 1
        # LOVE
        # {'LOVE': 2}
        # 0
        # LOVE
        # {'LOVE': 3}
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    # 把分类结果进行排序,然后返回得票数最多的分类结果
    # [('LOVE', 3)]
    print(sortedClassCount)
    return sortedClassCount[0][0]


if __name__ == '__main__':
    demo()

待分类对象输入
散点图

结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容