浅析聚类算法之层次聚类

咸鱼小李又上线啦!周末愉快鸭!近日是学习如何心安理得咸鱼瘫的小李了、学习和生病一样断断续续的 就希望呀 多努力一点 健康顺心一点!今天记录一下聚类里的算法,之前已经叙述了K-means聚类 今天补充一下其他。
————————————————————
关于什么是聚类,聚类是做什么等等之前已经叙述,今天直接进入正题。

层次聚类

定义

层次聚类(Hierarchical Clustering)是聚类算法的一种,它是通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。如下图即为一个聚类树。

举个例子:假如你作为公司的人力资源部经理,可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你可以进一步划分为较小的簇,例如,职员簇可以进一步划分为子簇:高级职员,一般职员和实习人员等等,当然也可以倒过来把各个类别的职员合并一个大类。所有的这些簇形成了层次结构,可以较清楚地对各层次上的数据进行汇总或者特征化*。

分类

层次聚类算法根据层次分解的顺序分为:
自下底向上:也称为凝聚的层次聚类算法,即从下到上对小的类别进行聚合为大类。
自上向下:也称为分裂的层次聚类算法,自上而下法就是反过来,即从上到下对大类别进行分割为小类。
这两种路方法没有孰优孰劣之分,只是在实际应用的时候要根据数据特点以及你想要的“类”的个数,来考虑是自上而下更快还是自下而上更快。

步骤

凝聚法:① 将每个对象看作一类,计算两两之间的最小距离;
②将距离最小的两个类合并成一个新类;
③重新计算新类与所有类之间的距离;
④重复②、③,直到所有类最后合并成一类。

分裂法
1.将样本集中的所有的样本归为一个类簇
2.在同一个类簇(计为c)中计算两两样本之间的距离,找出距离最远的两个样本a,b
3.将样本a,b分配到不同的类簇c1和c2中;
4.计算原类簇(c)中剩余的其他样本点和a,b的距离,若是dis(a)<dis(b),则将样本点归到c1中,否则归到c2中;
5.重复2.3.4直到达到聚类的数目或者达到设定的条件。

这边举凝聚法为例子,数据点如下:

这边采用欧氏距离来计算相似度
通过计算欧氏距离,得出点与点之间的邻接矩阵如下:
 从图可以看到,B与C之间的距离为1,距离最小,故将数据点B与数据点C进行组合后,重新计算各类别数据点间的距离矩阵。数据点间的距离计算方式与之前的方法一样。这里需要说明的是组合数据点(B,C)与其他数据点间的计算方法。当我们计算(B,C)到A的距离时,需要分别计算B到A和C到A的距离均值。
 经过计算数据,可以得到点D到数据点E的距离在所有的距离值中最小,为1.20。这表示在当前的所有数据点中(包含组合数据点),D和E的相似度最高。因此将数据点D和数据点E进行组合。并再次计算其他数据点间的距离。后面的工作就是不断的重复计算数据点与数据点,数据点与组合数据点间的距离。,将小类凝聚为所需数量的大类。
具体可参考: 机器学习--聚类系列--层次聚类
关于分割聚类的例子可参考:层次聚类

优缺点

优点
①距离和规则的相似度容易定义,限制少;
②可以现类的层次关系;③可以聚类成其它形状
缺点:①计算复杂度太高
②奇异值也能产生很大影响;③算法很可能聚类成链状
与之前的k-means进行相比,k-means中需要人工确定聚类类别K基于初始化聚类中心,这将会很大程度上影响聚类效果。层次聚类避免了这一问题。

补充一个问题:
如何划分才合适?也就是如何确定分为几个类。

我们一般是会设置一个样本距离的阈值,这样就可不设置聚类数目。 假如我们设定了一个阈值为f,即要求若存在距离小于阈值f的两个类簇时则将两个类簇合并并且继续迭代重复(凝聚法为例子)从而得到新的聚类结果。

用python实现参考: python实现一个层次聚类方法
其余参考:聚类算法(4)--Hierarchical clustering层次聚类


Ending~
今天是偷懒的小李了~原来打算在记录一下密度聚类,那就下次有空再补上吧!又划水了一周,没想到去年七月兢兢业业在实习的小李今年会在家里做个养生(病)的咸鱼,周末顺心。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342