上回简略说了相关分析,这回来说说聚类分析。它的功能就是算 行与行数据间的距离,按照指定的层数和数据间的距离,将数据分类。分完类后,我们会检查分类效果。
这里说下从聚类开始以下介绍的方法,归属于数据挖掘(Data mining)。 数据挖掘和机器学习,两者概念差不多。但机器学习要求将数据分为 训练组(trian)和测试组(test)。训练组让机器学习分类的标准规则。而测试组 是让机器自己用规则分类。
回到正题说聚类。
以下为数据 身高 体重 智商
尼康 170 60 103
大阳 163 70 115
夜一 180 75 116
数据出来,来解释解释距离。 身高列 170-163=7,7就是距离,180-163=17,180-170=10. 如果分2类的话 尼康和大阳距离最短,会分到一类。 当然还要根据 体重及智商 的距离和 判断。
这里提两点。 一是注意数据,如果体重换到斤为单位,那距离就会因为单位的原因而变大。我们需要对每列做单位化处理。二是 距离的定义是多样的,并非出例子所说的欧式距离。不同距离,分类结果稍有差异。
我们用聚类一般初处理分类,由于没有训练,所以不能确定分类结果。 之后肯定是要跟 机器学习算法相符,来搭建这个模型。