背景
协方差与相关系数
协方差描述两变量变化的相似度,相关系数除去了变量变化幅度的影响
高斯混合模型
多个高斯分布混合得到的结果高斯混合分析步骤
- 初始化高斯分布, 设置均值与标准差, 通常可以取数据本身的平均值, 也可以使用k-means来进行分类。下图为随机设置
- 软聚类数据, 也成为期望步骤(E步骤)。计算每个点对每个高斯分布的隶属度
- 重新估计数据, 也称为最大化步骤(M步骤)
计算均值
计算方差
-
评估对数似然估计来检查收敛, 如果不收敛, 重复2~4步骤
sklearn 示例
from sklean import datasets, mixture
X = datasets.iris().data[:,10]
gmm = mixture.GaussianMixture(n_components = 3)
gmm.fit()
clustering = gmm.predict(X)
优点
- 提供软聚类, 一个点可以属于多个聚类
- 聚类形状灵活,聚类可以包含聚类
缺点
- 初始化值敏感
- 可能会局部收敛
- 收敛速度慢