训练过程中,没有标签,属于无监督学习。
层次聚类有包含关系,非层次聚类没有包含关系
举个例子:
外部评价方法:有1亿篇文章没有划分类别,有1000篇已经划分好了类别,先对1亿篇文章进行聚类,然后再用这1000篇作为测试,检验聚类划分的一致性如何。
DB的最大值越小越好。
简写:
准确度 auc
精度 P
召回率 R
F值
β=1,通常称为F1-score表示P和R同等重要。
β越大,说明越关心recall
β越小,说明越关心精度
最终是聚成了一个类,聚类的过程是已经存储下来了,实际上业务需求需要几个类(或者也叫做聚类的高度),直接去取就可以了。
如果实际上 BCDE 应该聚合在一起,但是实际上没有聚合在一起,那么可能是给的特征有问题,不是算法的锅,这个时候需要去调特征。
质心是组合距离。
计算复杂度是一样的
=======================
-
Kmeans K平均聚类
基于密度聚类:DBScan
基于高斯分布:GMM
硬聚类就是把数据确切地分到某一类中,比如K-Means。
硬就是说“强硬”,是属于A类就是A类,不会跑到B类。
软聚类就是把数据以一定的概率分到各类中,比如高斯混合模型(GMM),比如模糊C均值模型(Fuzzy c-Means)。聚类的结果往往是样本1在A类的概率是0.7,在B类的概率是0.3。
软聚类又称为模糊聚类(fuzzy clustering)。