聚类算法---如何对NBA控球后卫进行聚类分析?

KMeans-Cluster

Cluster the dataset of NBA Player using KMeans method

数据下载地址:https://github.com/huangtaosdt/KMeans-Cluster/tree/master/data

该项目为KMeans的实现算法,整个算法分为三部分:
1.数据准备
读入数据,提取控球后卫球员,新增特征列:ppg(每场得分),atr(助攻失误率)
使用scatter查看分布情况。

import pandas as pd
nba=pd.read_csv('./data/nba_2013.csv')

#Data preparing
point_guards=nba[nba['pos']=="PG"]
point_guards.head()

#Calculate Points Per Game
point_guards['ppg'] = point_guards['pts'] / point_guards['g']
# Sanity check, make sure ppg = pts/g
point_guards[['pts', 'g', 'ppg']].head(5)

#Calculate Assist Turnover Ratio
point_guards = point_guards[point_guards['tov'] != 0]
point_guards['atr']=point_guards['ast']/point_guards['tov']

#Visualize data
%matplotlib inline
import matplotlib.pyplot as plt

plt.scatter(point_guards['ppg'], point_guards['atr'], c='y')
plt.title("Point Guards")
plt.xlabel('Points Per Game', fontsize=13)
plt.ylabel('Assist Turnover Ratio', fontsize=13)
plt.show()

2.算法实现

  • step0
    初始化簇心--为方便操作,使用dictionary存储簇心
    #Initialize centroids
    import numpy as np
    num_clusters=5
    random_initial_points=np.random.choice(point_guards.index,size=num_clusters)
    centroids=point_guards.loc[random_initial_points]
    
    #Visualize Centroids
    plt.scatter(point_guards['ppg'], point_guards['atr'], c='yellow')
    plt.scatter(centroids['ppg'], centroids['atr'], c='red')
    plt.title("Centroids")
    plt.xlabel('Points Per Game', fontsize=13)
    plt.ylabel('Assist Turnover Ratio', fontsize=13)
    plt.show()
    
    #Convert centroids list as dictionary
    def centroids_to_dict(centroids):
        dictionary={}
        counter=0
        for index,row in centroids.iterrows():
            dictionary[counter]=[row['ppg'],row['atr']]
            counter+=1
        return dictionary
    centroids_dict = centroids_to_dict(centroids)
    

簇心:
{0: [2.84, 2.7701149425287355],
1: [5.333333333333333, 2.0],
2: [8.354430379746836, 2.424],
3: [8.958333333333334, 1.9914529914529915],
4: [19.024390243902438, 1.7840909090909092]}

  • step1
    计算每个球员到各簇心的距离,根据其最短距离生成cluster column.
    # Step 1 
    #Calculate Euclidean Distance
    def calculate_distance(centroid,playerValues):
        distances=[]
        #list不能直接相减
    
        distance=sum((np.array(centroid)-np.array(playerValues))**2)
        distances.append(distance)
        return np.sqrt(distances)
        
    #Assign each point to cluster
    def assign_to_cluster(row):
        player=[row['ppg'],row['atr']]
        lowest_dist=-1
        clus_id=-1
        for clu_id,centroid in centroids_dict.items():
            distance=calculate_distance(centroid,player)
            if lowest_dist==-1:
                lowest_dist=distance
                clus_id=clu_id
            elif distance<lowest_dist:
                lowest_dist=distance
                clus_id=clu_id
        return clus_id
    point_guards['cluster']=point_guards.apply(assign_to_cluster,axis=1)
    
    #Visualize result
    def visualize_clusters(df,num_clusters):
        colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k']
        for i in range(num_clusters):
            clustered_df = df[df['cluster'] == i]
            plt.scatter(clustered_df['ppg'],clustered_df['atr'],c=colors[i])
        plt.xlabel('Points Per Game', fontsize=13)
        plt.ylabel('Assist Turnover Ratio', fontsize=13)
        plt.show()
    visualize_clusters(point_guards, 5)
    
  • step2
    重新计算各簇簇心,重复step1.
    # Step 2  Recalculate the centroids for each cluster.
    
    def recalculate_centroids(df):
        new_centroids_dict={}
        for clu_id in range(num_clusters):
            df_clus_id=df[df['cluster']==clu_id]
            mean_ppg=df_clus_id['ppg'].mean()
            mean_atr=df_clus_id['atr'].mean()
            new_centroids_dict[clu_id]=[mean_ppg,mean_atr]
        return new_centroids_dict
        
    centroids_dict = recalculate_centroids(point_guards)
    
    #Repeat above steps
    point_guards['cluster']=point_guards.apply(assign_to_cluster,axis=1)
    visualize_clusters(point_guards, num_clusters)
    

簇心:
{0: [2.6178602133875315, 2.12795670952364],
1: [5.032680887069763, 1.9577408362904933],
2: [7.587016263538343, 2.7497928951953226],
3: [10.743029331820049, 2.3538881165489767],
4: [17.993849912411445, 2.3359021336098063]}


  • 重复若干次step12、2,查看聚类结果
centroids_dict = recalculate_centroids(point_guards)
point_guards['cluster'] = point_guards.apply( assign_to_cluster, axis=1)
visualize_clusters(point_guards, num_clusters)

总结:
以上为KMeans实现算法,sklearn library中已经实现了KMeans。在重复聚簇时,sklearn采取的方法是每次重复聚簇时簇心均为随机产生,从而可以有效降模型出现的偏差,过程:

#Do it using sklearn library
from sklearn.cluster import KMeans

km=KMeans(n_clusters=5,random_state=1)
km.fit(point_guards[['ppg','atr']])
point_guards['cluster'] = km.labels_
visualize_clusters(point_guards, num_clusters)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容