判别分析与聚类分析有一个共同点,就是对样本进行分类,但两者也有所不同,判别分析是在已知有多少类,并且在有训练样本的前题下,利用训练样本得到判别函数,对待测样本进行分类。而聚类分析是预先不知道有多少类的情况下,根据某种规则将样本(或指标)进行分类。
聚类分析这一类方法的共同特点是:事先不知道类别的个数与结构;据以进行分析的数据是对象之间的相似性或相异性的数据。将这些相似(相异)性数据看成是对象之间的“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。
聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样本进行聚类,R型聚类分析是指对变量进行聚类分析。
聚类分析是研究对样本或变量的聚类,在进行聚类分析时,可使用的方法有很多,而这些方法的选择往往与变量的类型是有关系的,由于数据的来源及测量方法的不同,变量大致可以分为两类。
(1)定量变量。也就是通常所说的连续量,如长度、重量、产量、人口、速度和温度等,它们是由测量或计数、统计所得到的量,这些变量具有数值特征,称为定量变量。
(2)定性变量,这些量并非真有数量上的变化,而只有性质上的差异。这些量还可以分为两种,一种是有序变量,它没有数量关系,只有次序关系,如某种产品分为一等品、二等品、三等品等,矿石的质量分为贫矿和富矿,另一种是名义变量,这种变量即无等级关系,也无数量关系,如天气(阴、晴),性别(男、女)、职业(工人、农民、教师、干部)和产品的型号等。
<统计建模与R软件>
https://www.cnblogs.com/think90/p/7133753.html