机器学习算法分类
有监督学习
有训练样本
- 分类模型
- 预测模型
无监督学习
无训练样本
- 关联模型
- 聚类模型
聚类算法
介绍
- 聚类就是将一组对象划分成簇(cluster),使簇内对象相似性尽量大,而簇间对象相似性尽量小。
- 划分法
- 层次法
- 基于密度的方法
- 基于网格的方法
- 基于模型的方法
比较
聚类
- 无监督学习方式:需要解决将若干无标记对象进行划分的问题,使之成为有意义的聚类。
- 聚类数目未知 :需要以某种距离度量为基础,将所有对象进行分类,使得同一聚类之间距离最小,不同聚类之间距离最大。
分类
- 有监督学习方式:利用已经过标记的对象进行学习(训练),构造模型,然后用其对新对象进行标记。
- 聚类数目已知 :对每个新对象标记为目标数据库中已存在的类别。
聚类算法的应用
商业
- 市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说消费习惯。
生物学
- 用来动植物分类和对基因进行分类,获取对种群固有结构的认识。
保险
- 聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅区域,价值,来鉴定一盒城市的房产分组。
K均值聚类算法详细介绍
K均值也成 K-means 算法,即快速聚类
K-means 聚类思想
以空间中K个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐层次更新各聚类中心的值,直至得到最好的聚类结果。
聚类变量
- 变量类型: 数值型
- 输入变量 :有
- 输出变量:无
相似度测度
- 采用欧氏距离测度数据之间的差异程度
聚类中心
- 类的重心
收敛准则
- 误差平方和函数
算法的优点
- 算法快速、简单
- 对大数据集有较高的效率并且是可伸缩性的
- 时间复杂度近于线性,而且适合挖掘大规模的数据集
算法缺点
- 在K-means算法中 K 是事先给定的,这个K 值的选定是非常难以估计的。
- 初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效地聚类结果。
- 只适用于连续数值型输入变量。