1.什么是关联分析?
自然界中,某件事情发生时,其他事件也会发生,这种联系称为关联。关联分析就是为了寻找事物之间的一些有趣的关联关系。
最让人熟知的就是购物篮分析,商场在分析用户经常同时购买“啤酒、尿布“、“篮球”、“篮球服”等商品组合,于是将其放在一起以促进销售。这种关联关系的分析,不仅应用与网站设计者可以根据访客日志数据,发现访客浏览习惯和网站页面间的关系。
2.如何评价关联规则是否有用?
拿某个商场的交易数据中进行分析,数据集中有限的项目经过排列组合以后可以产生大量的关联规则,但是,只有一小部分的规则会是用户感兴趣的,因此需要引入一个“兴趣度”的概念帮助用户评估得到的关联规则。
而与兴趣度评估相关的度量包括:简洁性、正确性、实用性、新颖性
1)简洁性:太复杂的规则会让用户的兴趣度降低,也难以解释和理解
2)正确性:令人信服的程度有多高。
正确性的判断指标是置信度,表示这个规则正确的概率有多大。即在某一项x出现的前提下,另外一项y出现的频率是多少。
置信度confident(x=>y)=p(y|x)
3)实用性:判断该规则再次出现的可能性有多大,即这个指标的覆盖率。
实用性的判断指标是支持度,支持度越大说明规则应用越广泛,即xy同时出现的频率.
支持度support(x=>y)= p(x U y)
4)新颖性:判断规则是否已经被导出的另外一个规则作蕴含。
在这4个指标中,置信度和实用性是用来评判一条规则是强关联规则的依据。
强关联规则:同时满足用户定义的最小支持度阈值和最小置信度阈值的关联规则
弱关联规则:不满足最小支持度阈值和最小置信度阈值的关联规则
5)改善度:
期望可信度是在x没有影响的作用下y出现的频率,p(i)
改善度则是评估x的出现对y的出现的影响性。p(y|x)/p(x)越大,则改善度越高,说明x的出现对y的可能影响就越大。
3.关联规则的分类
1)布尔规则和量化规则
(1)布尔规则:性别=女=》职业=老师
(2)量化规则:性别=女=》平均收入=2300
量化关联规则可以直接对原始数据进行处理,或先对数值型属性进行分区间进行动态分割
2)单层规则和多层关联规则
在单层规则中,所有的项不考虑现实数据的多层性,而在实际应用中,涉及不同的抽象层发现的多层关联规则则是一种更有用的关联规则,因为属性之间存在一种层次关系。
(1)不涉及不同抽象层的项的规则称为单层关联规则
adidas篮球=》nike篮球服
(2)较高层次和较低层次之间规则称为多层关联规则
adidas篮球=》篮球服
3)单维规则和多维规则
(1)单维关联规则:处理同一个属性或维度内的联系。
adidas篮球=》nike篮球服
(2)多维关联规则:多个属性或维度之间的联系。
用户的年龄和购买物品