CDA Level1 最后一部分,是整个cda Level 1中占比重最高的一个部分,整体占比为40%;主要分为五个部分:
1,主成分分析 4%,因子分析2%
2,系统聚类法 2%,K-means聚类法 3%
3,对应分析 2% 多维尺度分析2%
4,多元回归分析法20% (多元线性回归10%,逻辑回归10%)
5,时间序列 5%;
level 1的阶段 其实只要求对以上建模分析方法进行理解,并知晓各种分析方法的应用方向。
聚类分析
大纲要求:聚类方法的基本逻辑;系统聚类和K-Means聚类的基本算法和优缺点;系统聚类的计算步骤,包括两点距离,两类合并的计算方法;系统聚类法中选择最优聚类数量的方法;K-Means聚类的基本算法;聚类分析变量标准化的原因和计算方法;变量需要进行主成分分析的原因;变量进行函数转化的原因和计算方法。
一、聚类的逻辑:将样本按相似性的大小分成多个类的过程被称为聚类。
二、聚类分析的类型:系统聚类(层次聚类)、K-Means聚类(快速聚类)
三、两种聚类的基本算法:
1,层次聚类法:
通常分为 自底向上和自顶向下。原理相同,只是计算方向相反。
自底向上:又称合并法。先将样本分别作为一个独立的类,然后通过距离计算,将距离想尽的两个样本合并为一类,其他样本仍然各自为一类。不断重复这个过程,知道达到聚类数或者设定目标。
自顶向下:又称分解法。先把所有样本看成一类,通过距离计算,选出距离最远的两个样本,各自为一个类别,其余样本根据距离远近分配到两个类别中,从而行程新的类别划分。不断重复过程,直到达到聚类数或者设定的目标。
不管哪个方法,都需要对距离进行定义。
距离定义方法:
绝对值距离,欧氏距离,闵可夫距离,切比雪夫距离,一般最常用的是欧氏距离。
如何确定两个类的距离:
最短距离法,最长距离法,中间距离法,类平均距离法重心法和离差平方和法
聚类的变量可以是连续变量,也可以是分类变量。衡量距离的方法也非常反复。
层次聚类缺点:
由于需要反复计算距离,限制了层次聚类的速度。因此不适合于数据量非常大或者变量非常多的项目;且如果计算机硬件有制约,回影响层次聚类的可行性。
2,K-Means聚类
K-Means聚类是一种快速聚类,适用于大样本量的数据
K-Means聚类方法:
首先选择K个点作为中心点,这些中心点可以是分析者自己指定,也可以根据数据结构行程,也可以随机产生。
所有样本与K个中心点计算距离,按照距离最近的原则归入这些中心点。然后重新计算每个类的中心,再次计算每个样本与类中心的距离,并按照最短距离原则重新划分类。更迭直至类不再变化。
和层次聚类的区别:
快速聚类方法计算量非常小,可以快速得出结果,不会耗费太多的空间和时间,对硬件的依赖性也较低。在分析时,用户也可以根据过往经验或者计算结果,指定初始中心位置,可以进一步增加聚类的效率。
缺点:
需要事先指定聚类数,需要分析师有一定的经验积累。或者可能需要多次反复尝试。对初始点敏感,容易导致聚类结果与数据真实分类出现差异,对异常值比较敏感。变量必须是连续变量,对变量的标准度要求比较高,否则可能产生无意义的结果。不能对分类变量进行聚类,也是它使用的一个较大缺点。
3,两步聚类法:
结合了K-Means和系统聚类的方法,先选择较大的类数量对样本进行快速聚类,然后对每个聚类的中心点进行系统聚类,选择合适的分类数量,然后将聚类结果合并为较理想的数量
在进行聚类时要结合业务理解对数据进行适当的变换,并且需要对变量进行维度分析,聚类结果可以使用类中心之间的比较,结合业务进行解读。
四、聚类的应用:
一般用于客户画像,离群点检验,营销套餐设计等领域。
数据量较大或者变量多的样本,优先考虑K-Means聚类法;
样本数据量适中或者变量类型比较复杂的,可以考虑层次聚类法。
特别综合的项目,也可以采用两步聚类法。
聚类是一种无监督学习的算法。