- 非监督学习
- 定义:训练数据无类。
- 包括:类簇 (训练数据能分成某些组,例如:市场分割,社交网络分析,基因检测); 异常检测(训练数据中,一些值不能归于期待的模型)
- Clustering 算法
- partitioning methods(分开算法,基于中心分簇);例如:找出球形的相互独立的簇;基于距离;k-means
- 基于关联性的方法;例如:自上而下;自下而上
- 基于密度的方法;例如:密度模型DBSCAN
- 基于网格的方法;例如:使用多分辨率网格数据结构
- 基于分布的方法;例如:Expectation-maximization算法
- K-means
- 定义:将数据分成K组,而每个簇都由簇中心点的距离有关
-
步骤: (1)选出k个点,作为均值中心点;(2)每个点的归簇问题由与中心最近的距离决定; (3)更新下最新的均值中心点;(4) 重复以上步骤。
-
K-mean缺点:(1) k的确定需要提前决定
(2)均值中心点的初始化很重要,选不好,就很容易产生不好的结果; (3) 只能解决数字化问题,例如性别,国家等类别,需要预先用数字表示;(4)在本地最小点,算法会停滞,即不收敛
(5)很容易受异常点和噪声影响,导致不准确分割
(6)不能用于球形的簇分割,或者不同密度和尺寸的簇
- 如何选择k值
- 法1:根据分割结果,来调整k值
- 法2: elbow法,即尝试不同的k值,逐步增加k值,然后观察到均值中心点的平均距离变化;理想下,均值距离初期快速下降,后期缓慢下降;
-总的来说,目前很难找到elbow点,实际应用中,不用elbow法来找k值。