以下是文字提取部分,阅读 完毕的同学可以离开了
大数据是一门十分受欢迎的课程
有多欢迎呢
就算我不介绍,你都应该明白它是什么
所以我要跳过官方话,直奔主题
大数据的;体系结构;
这里会挑几个概念来讲,其余的后面会涉及
;采集;分为三个方面
;自动生成;类似学生的成绩
这些成绩躺在数据库里(DB)
;汇总而成;类似平均成绩
计算而成在数据仓库(DW)
;第三方;由许多调研机构组成
值得一提的是
采集到的数据要汇总到;历史仓库;
经过一段时间后,不被使用的数据成为;休眠数据;
这些数据往往会;被删除;
;大数据功能;
;关联分析;
这里有个故事叫:啤酒尿布
美国妇女们经常会;嘱咐;她们的丈夫
下班以后要为孩子;买尿布;
丈夫在买完尿布之后又要顺手买回自己爱喝的;啤酒;
因此啤酒和尿布在一起购买的机会还是很多的
这里的啤酒和尿布形成了一种;关联;
关联分析是寻找;项与项;之间的关系
这个关系有2个常见参数
;sup支持度;和;conf可信度;
sup指买啤酒和尿布的占所有人的百分比
conf指既买尿布又买啤酒的占买过尿布的人的百分比
在这里,尿布和啤酒都是;集合;
他们的;交集为空;
请注意:尿布和啤酒;不是;因果关系
;X;因为买尿布所以买啤酒
这个过程;不可逆;
;X;买了啤酒可能买尿布
这两个指数怎么用?
设a,b,c三个项
我会问哪两两关联达到sup=50%conf=30%
通常做法是一步一步计算
需要知道a,c的数量
a关联c的数量,然后通过上面的公式计算
我称这种方法为;穷举法;
这种方法;很糟糕;
我推荐你使用apriori算法
条件:哪些相关联达到sup50%,conf30%
你需要测出a的sup和c的sup
如果a或者c的sup不满足50%
那a,c必然不会符合关联条件
;分类与预测;
分类的定义:;分类已知数据;
比如下面的一组数据,称为;训练集;
它有特征标识
;第一列;就是特征标识
根据标识;建立模型;
模型通过;分类器;生成一个新的数据
称为;测试集;
这个测试集可以;预测未来;
最大的特点是没有特征标识
下面就是;测试集;
通过;分析训练集;
我们可以对每个类别建立;分类分析模型;
从而利用这个模型
返回来对其他;测试集;进行分类
这里主要有三个技术
;聚类分析;
我知道你的疑问:聚类与分类的;区别;
聚类主要是对;相似/相异;的数据进行分组
它的数据;没有标识;
并且;没有;测试集和训练集
与分类的;技术不同;
而且,它们俩的;应用范围;不一样
下面是两种聚类算法
第一种明显要;好于;第二种
因为第二种蓝色与蓝色之间已经;分开;
红色与红色也;分开;的
标准流程就是一个;闭环;
这个闭环称为:;CRISP-DM模型;
你需要业务理解、数据理解、数据准备、建立模型…
而数据理解就像你要;买菜;
数据准备就是;切菜;