CDA Level 1建模分析-聚类分析

CDA Level1 最后一部分,是整个cda Level 1中占比重最高的一个部分,整体占比为40%;主要分为五个部分:

1,主成分分析 4%,因子分析2%

2,系统聚类法 2%,K-means聚类法 3%

3,对应分析 2% 多维尺度分析2%

 4,多元回归分析法20% (多元线性回归10%,逻辑回归10%)

5,时间序列 5%;

level 1的阶段 其实只要求对以上建模分析方法进行理解,并知晓各种分析方法的应用方向。

聚类分析

大纲要求:聚类方法的基本逻辑;系统聚类和K-Means聚类的基本算法和优缺点;系统聚类的计算步骤,包括两点距离,两类合并的计算方法;系统聚类法中选择最优聚类数量的方法;K-Means聚类的基本算法;聚类分析变量标准化的原因和计算方法;变量需要进行主成分分析的原因;变量进行函数转化的原因和计算方法。

一、聚类的逻辑:将样本按相似性的大小分成多个类的过程被称为聚类。

二、聚类分析的类型:系统聚类(层次聚类)、K-Means聚类(快速聚类)

三、两种聚类的基本算法:

1,层次聚类法:

通常分为 自底向上和自顶向下。原理相同,只是计算方向相反。

自底向上:又称合并法。先将样本分别作为一个独立的类,然后通过距离计算,将距离想尽的两个样本合并为一类,其他样本仍然各自为一类。不断重复这个过程,知道达到聚类数或者设定目标。

自顶向下:又称分解法。先把所有样本看成一类,通过距离计算,选出距离最远的两个样本,各自为一个类别,其余样本根据距离远近分配到两个类别中,从而行程新的类别划分。不断重复过程,直到达到聚类数或者设定的目标。

不管哪个方法,都需要对距离进行定义。

距离定义方法:

绝对值距离,欧氏距离,闵可夫距离,切比雪夫距离,一般最常用的是欧氏距离。

如何确定两个类的距离:

最短距离法,最长距离法,中间距离法,类平均距离法重心法和离差平方和法

聚类的变量可以是连续变量,也可以是分类变量。衡量距离的方法也非常反复。

层次聚类缺点:

由于需要反复计算距离,限制了层次聚类的速度。因此不适合于数据量非常大或者变量非常多的项目;且如果计算机硬件有制约,回影响层次聚类的可行性。

2,K-Means聚类

K-Means聚类是一种快速聚类,适用于大样本量的数据

K-Means聚类方法:

首先选择K个点作为中心点,这些中心点可以是分析者自己指定,也可以根据数据结构行程,也可以随机产生。

所有样本与K个中心点计算距离,按照距离最近的原则归入这些中心点。然后重新计算每个类的中心,再次计算每个样本与类中心的距离,并按照最短距离原则重新划分类。更迭直至类不再变化。

和层次聚类的区别:

快速聚类方法计算量非常小,可以快速得出结果,不会耗费太多的空间和时间,对硬件的依赖性也较低。在分析时,用户也可以根据过往经验或者计算结果,指定初始中心位置,可以进一步增加聚类的效率。

缺点:

需要事先指定聚类数,需要分析师有一定的经验积累。或者可能需要多次反复尝试。对初始点敏感,容易导致聚类结果与数据真实分类出现差异,对异常值比较敏感。变量必须是连续变量,对变量的标准度要求比较高,否则可能产生无意义的结果。不能对分类变量进行聚类,也是它使用的一个较大缺点。

3,两步聚类法:

结合了K-Means和系统聚类的方法,先选择较大的类数量对样本进行快速聚类,然后对每个聚类的中心点进行系统聚类,选择合适的分类数量,然后将聚类结果合并为较理想的数量

在进行聚类时要结合业务理解对数据进行适当的变换,并且需要对变量进行维度分析,聚类结果可以使用类中心之间的比较,结合业务进行解读。

四、聚类的应用:

一般用于客户画像,离群点检验,营销套餐设计等领域。

数据量较大或者变量多的样本,优先考虑K-Means聚类法;

样本数据量适中或者变量类型比较复杂的,可以考虑层次聚类法。

特别综合的项目,也可以采用两步聚类法。

聚类是一种无监督学习的算法。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容