Kmeans
- 先从样本集中随机选取 k 个样本作为簇中心,并计算所有样本与这 k 个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。
1. 手肘法
- 手肘法的核心指标是SSE(sum of the squared errors,误差平方和)
其中,是第i个簇,p是中的样本点,是的质心(中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。 - 增加k所得到的聚合程度回报变小的肘部
2. 轮廓系数
- 对于其中的一个点 i 来说:
- 计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)
- 计算 b(i) = min (i向量到与它相邻最近的一簇内的所有点的平均距离)
- 那么 i 向量轮廓系数就为:
- 轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优。
- 将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数。
- 平均轮廓系数最大的k便是最佳聚类数。
3. Calinski-Harabasz准则
- 公式
SSB是类间方差,
SSW是类内方差,
m为所有点的中心点, 为某类的中心点, 是复杂度 - 比率越大,数据分离度越大.