浅析聚类算法之层次聚类

咸鱼小李又上线啦!周末愉快鸭!近日是学习如何心安理得咸鱼瘫的小李了、学习和生病一样断断续续的就希望呀多努力一点健康顺心一点!今天记录一下聚类里的算法，之前已经叙述了K-means聚类今天补充一下其他。
————————————————————
关于什么是聚类，聚类是做什么等等之前已经叙述，今天直接进入正题。

层次聚类

定义

层次聚类(Hierarchical Clustering)是聚类算法的一种，它是通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。如下图即为一个聚类树。

举个例子：假如你作为公司的人力资源部经理，可以把所有的雇员组织成较大的簇，如主管、经理和职员；然后你可以进一步划分为较小的簇，例如，职员簇可以进一步划分为子簇：高级职员，一般职员和实习人员等等，当然也可以倒过来把各个类别的职员合并一个大类。所有的这些簇形成了层次结构，可以较清楚地对各层次上的数据进行汇总或者特征化*。

分类

层次聚类算法根据层次分解的顺序分为：
①自下底向上：也称为凝聚的层次聚类算法，即从下到上对小的类别进行聚合为大类。
②自上向下：也称为分裂的层次聚类算法，自上而下法就是反过来，即从上到下对大类别进行分割为小类。
这两种路方法没有孰优孰劣之分，只是在实际应用的时候要根据数据特点以及你想要的“类”的个数，来考虑是自上而下更快还是自下而上更快。

步骤

凝聚法：① 将每个对象看作一类，计算两两之间的最小距离；
②将距离最小的两个类合并成一个新类；
③重新计算新类与所有类之间的距离；
④重复②、③，直到所有类最后合并成一类。

分裂法：
1.将样本集中的所有的样本归为一个类簇
2.在同一个类簇（计为c）中计算两两样本之间的距离，找出距离最远的两个样本a,b
3.将样本a，b分配到不同的类簇c1和c2中；
4.计算原类簇（c）中剩余的其他样本点和a，b的距离，若是dis(a)<dis(b)，则将样本点归到c1中，否则归到c2中；
5.重复2.3.4直到达到聚类的数目或者达到设定的条件。

这边举凝聚法为例子,数据点如下：

这边采用欧氏距离来计算相似度

通过计算欧氏距离，得出点与点之间的邻接矩阵如下：

　从图可以看到，B与C之间的距离为1，距离最小，故将数据点B与数据点C进行组合后，重新计算各类别数据点间的距离矩阵。数据点间的距离计算方式与之前的方法一样。这里需要说明的是组合数据点(B,C)与其他数据点间的计算方法。当我们计算(B,C)到A的距离时，需要分别计算B到A和C到A的距离均值。

　经过计算数据，可以得到点D到数据点E的距离在所有的距离值中最小，为1.20。这表示在当前的所有数据点中（包含组合数据点），D和E的相似度最高。因此将数据点D和数据点E进行组合。并再次计算其他数据点间的距离。后面的工作就是不断的重复计算数据点与数据点，数据点与组合数据点间的距离。，将小类凝聚为所需数量的大类。
具体可参考：机器学习--聚类系列--层次聚类
关于分割聚类的例子可参考：层次聚类

优缺点

优点：
①距离和规则的相似度容易定义，限制少；
②可以现类的层次关系；③可以聚类成其它形状
缺点：①计算复杂度太高
②奇异值也能产生很大影响；③算法很可能聚类成链状
与之前的k-means进行相比，k-means中需要人工确定聚类类别K基于初始化聚类中心，这将会很大程度上影响聚类效果。层次聚类避免了这一问题。

补充一个问题:
如何划分才合适？也就是如何确定分为几个类。

我们一般是会设置一个样本距离的阈值，这样就可不设置聚类数目。假如我们设定了一个阈值为f，即要求若存在距离小于阈值f的两个类簇时则将两个类簇合并并且继续迭代重复（凝聚法为例子）从而得到新的聚类结果。

用python实现参考： python实现一个层次聚类方法
其余参考：聚类算法(4)--Hierarchical clustering层次聚类

Ending~
今天是偷懒的小李了~原来打算在记录一下密度聚类，那就下次有空再补上吧！又划水了一周，没想到去年七月兢兢业业在实习的小李今年会在家里做个养生(病)的咸鱼，周末顺心。