无监督学习之K均值算法

前言

在之前的学习中,已经了解学习了一系列与监督学习有关的机器学习算法,本篇文章,将详细讲述与无监督学习相关的机器学习算法,所谓无监督学习就是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习,即也就是自动的找到不同的类型,将不同的个体归为不同的类型,也就是聚类问题。详细介绍如下所示。

K均值(K-Means)算法

在无监督学习中,我们希望将一系列未加任何标记的数据能够通过聚类算法自动地分成有紧密关系的子集或者簇。其中,K均值算法是应用最为广泛的算法之一。

  • 算法原理
    K均值算法的算法原理如下所示:
    假设有一组训练集,在训练集中随机生成两个聚类中心(如图中X所示,之所以生成两个聚类中心是因为希望将数据分为两类)。聚类算法是一个迭代算法,主要可以分为以下两步:
    1. 簇分配:
      先随机选取K个对象(本例中选取两个对象)作为初始的聚类中心,然后计算每个训练样本与各个聚类中心之间的距离,把每个训练样本分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。
    2. 移动聚类中心:
      一旦全部训练样本都被分配了,每个聚类的聚类中心会根据聚类中已分配的对象被重新计算。即也就是聚类中心的位置会发生变化。

以上两个步骤将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:
1). 没有(或最小数目)对象被重新分配给不同的聚类。
2). 没有(或最小数目)聚类中心再发生变化。
3). 误差平方和局部最小。
其过程如下图所示:


  • 算法表示
    对于K均值算法的输入有如下约定:
    用K表示簇的个数,用\{ x^{(1)},x^{(2)}……x^{(m)}\}表示训练样本数,x \in R^n,是一个n维向量。
    首先,随机初始化K个聚类中心,记作\mu_1,\mu_2……\mu_K \in R^n,然后,重复一下步骤,直到满足终止条件:
    Repeat \ \ \{
    \ \ \ \ \ for \ \ i = 1 \ \ to \ \ m:
    \ \ \ \ \ \ \ \ \ \ \ c^{(i)} := min(\left \| x^{(i)} - \mu_k\right \|^2)
    \ \ \ \ \ for \ \ k = 1 \ \ to \ \ K:
    \ \ \ \ \ \ \ \ \ \ \ \mu_k:=已分配给第k个簇的训练样本的平均值

\ \}

优化目标

与监督学习相关算法一样,K均值算法也有优化目标函数或者最小化代价函数。K均值优化目标函数一方面可以帮助我们对算法进行调试,确保算法正常运行,另一方面,可以用优化目标函数帮助K均值算法找到更好的簇,避免局部最优解。
对于优化目标函数有如下标记:
c^{(i)}:表示当前样本x^{(i)}所属的簇的索引
\mu_k:表示第k个聚类中心的位置。
\mu_{c^{(i)}}:表示x^{(i)}所属的簇的聚类中心。
优化目标函数可以用以下公式表示:
J(c^{(1)}……c^{(m)},\mu_{1}……\mu_{K}) = \frac{1}{m}\sum_{i=1}^{m}\| x^{(i)} - u_{c^{(i)}} \|^2

随机初始化

在K均值算法中,有几种方法可以实现聚类中心的初始化,但比较好的一种实现方式如下所示:

  1. 假设有K个聚类中心,其中K<m(训练样本数)。

  2. 随机选取K个训练样本。

  3. 设定\mu_1……\mu_k等于选定的K个训练样本。

在K均值算法的实际应用过程中,需要多次运行K均值算法并且每次都要随机初始化聚类中心,最后,得到一系列聚类中心和聚类结果。用得到的聚类中心和聚类结果计算能够使得代价函数J最小的参数。

选择聚类中心的数量

选择聚类中心的数量并不容易,因为很难清楚数据应该分为几类。在选择聚类中心数量的问题上,有一个常用方法被称作“肘部法则”如下图所示:


选择不同的聚类中心数量,会得到不同的代价函数的值。如上曲线所示,整个曲线如同一条胳膊,K=1,2时,曲线变化剧烈,K \geq3 时逐渐趋于平稳,K=3是一个很明显的分界点,所以可以选择聚类中心的数量为3。
但是,通常情况下很难得到如上所述的理想曲线,通常得到的曲线如下所示,很难确定分界点,所以“肘部法则”并不是一个完美的解决方案。

正如算法的设计是为了解决实际问题,选择聚类中心的数量也是为了特定的后续目的,那么决定聚类数量更好的方法是评估不同的聚类数量是否能够更好的解决后续目的,根据解决问题的实际效果选择最为合适的聚类数量。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容

  • 聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监...
    飘涯阅读 41,197评论 3 52
  • 第一百零八课:无监督学习 聚类算法:第一个无监督学习算法(无标签的数据)什么是无监督学习呢?对比:监督学习问题指的...
    带刺的小花_ea97阅读 793评论 0 3
  • 昨天花了一晚上今天又读了一天,终于把《红与黑》读完了,说实话我读这种小说感觉不到作者文笔的优美,构思的严谨独到,只...
    ecc4b9de0993阅读 1,586评论 1 8
  • 写写今天学到的知识, 简单,少。 《mysql必知必会》:有 子查询,联结表,高级联结,组合查询,插入数据,更新和...
    Delevin_5d4c阅读 165评论 0 0
  • “太好了!这样的事情竟然发生在我身上!我又有可以学习…” 真的没想到才得到的建议这么快就用上了,而且还发生在我身上...
    随机人格阅读 4,222评论 0 0