4.3
(a)三种数据仓库建模模式:星形模式,雪花模式,事实星座模式
(b)星形模式:
(c)上卷:沿time维上的概念分层由day层上到year层聚集数据;沿patient维上卷到“全部”。
切片:通过在time维上进行选择( time="2010"),列出2010年每位医生的收入总数。
(d)select doctor,hospital,sum(charge) from fee where year="2010" group by doctor,hospital
4.4
(a)雪花模式
b)上卷:沿student维从student_name层上卷到university(全校学生)层;沿instructor维上卷到“全部”。
切块:取course="CS",semester="某个学期",沿course和semester维切块。
下钻:沿student维下钻到student_name维。
(c)5^4=625
4.5
(a)星形模式
(b)上卷:沿date维概念分层上卷到year;沿game维上卷到“全部”;沿location维上卷到location_name;沿spectator_id上卷到status
切块:以status="students", location name=“GM Place”and year=2010切块。
(c) 位图索引适用于集的势较低的领域。例如,对于这个立方体,如果地点维是位图索引,在location轴上的比较、连接、和聚集操作可被简化为位计算,从而减少了处理时间。而且,长的地点名称字符串能用一位来表示,这样就使存储空间和输入输出时间显著的减小。对于有较高的集的势的维,就像本例中的日期(date)维,用于表示位索引的向量会非常长。例如,一个历时10年的数据集合可导致3650个日记录,意味着实事表中的每个元组需要3650位(或大约456字节)去表示位图索引。
4.9
(a)分布式度量,代数式度量,整体式度量
(b)
因此方差函数可表示为:
所以方差函数是代数度量。如果立方体可以被分为许多大块,方差可以用如下方法计算:逐个读取大块中的每一个数据,保留并累加如下聚集:
(1)元组的数量(2)()的和(3)()读完所有的块以后,将元组的数量N 的和带入,就可应用上述公式得到方差variance。
(c)
a.对于每个立方体,初始时先用10个存储单元存储任意选定的10个销售额;
b.将这10个存储单元中的销售额由大到小排序;
c.在立方体中读一个元组,如果该元组中的销售额大于10个中最小销售额,就用当前销售额替换最小销售额;
d.重复b,c,直到读遍立方体中所有元组后停止。
4.11
(a)RFID采集的原始数据是一个三元组(RFID,at_location,time),其中RFID是标签的标识码,at_location是阅读器读取标签的地点,time是阅读器读取标签的时间。通过RFID技术,企业可以了解产品流通的路径和时间。针对该公司的需求,可以按照以下步骤设计数据仓库:
(1)由于待建模的商务处理偏重于物流管理,所以应该选择企业仓库模型,而在不同地点(location维中的取值)的中转站可以采用数据集市模型存储数据。
(2)画出该数据仓库的雪花模式图:
(3)确定各个维度上的概念分层,便于在其上进行联机分析处理。如定义time维的概念分层为:偏序“day<{month<quarter,week}<year”.
(4)确定数据仓库中各个维的数据类型,值域;表与表之间的关联关系;如何对OLAP数据进行索引的方式。
(b)考虑这样一种情境:一批货物从产地出发,先分散发往几个大型中转站,每个大型中转站再将各自的货物分散发往几个中型中转站,每个中型中转站再将各自的货物分散发往几个小型中转站,层层分解,最后进入分布范围极广的最终消费领域,整个供应链成树形结构。由于货物在进入最终消费领域之前都是成批次流通的,因此存在这样一些数据三元组,它们拥有相同的location,相同的time,仅仅是RFID不同,并且越靠近供应链上游,这样的数据集越大。针对这种现象,我们可以对RFID进行转换,方法是把所有发往同一中转站的货物标签RFID归为一个集合ARFID[i],并建立一个ARFID集合表,记录ARFID[i]信息。这样,阅读器采集到的数据三元组(RFID,at_location,time)将转换为(ARFID[i],at_location,time),其中ARFID[i]是RIFD在ARFID表中所属的集合,所有RFID属于同一个ARFID[i]的三元组数据将只记录为一条(ARFID,at_location,time)记录,大大压缩了数据量。
(c)传统数据挖掘中提供了很多方法来进行数据清理,比如使用分箱,聚类,拟合等方法来清除噪音,使用函数依赖来纠正数据间的不一致。RFID数据也可以采用这些常规方法进行清理。但是,由于RFID系统采集数据的准确度高,且RFID数据规模庞大,错误数据在海量数据中密度很低且多为孤立数据,再加上RFID数据的连续特点,单个错误数据所携带的信息并不十分重要,所以对于RFID数据来说,忽略噪声不失为一个高效且几乎无损的方法。
(d)首先,将BestBuy终端和洛杉矶港端采集的RFID信息进行关联,然后与公司RFID数据库关联,找到从洛杉矶港到BestBuy终端的所有产品信息。然后,进行联机分析处理,删除不必要的维度(上卷至“全部”),按时间维度上卷至month概念分层,按产品维上卷至brand概念分层,根据需求聚集价格区间,按month="某月',brand="某品牌",price="某价格区间",product_category=“电视机”,进行切块处理,并以count作为度量,确定本月,该品牌,该价格区间内有多少台电视机从洛杉矶港运到伊利诺伊州尚佩恩市的BestBuy。
(e)根据各个中转站的RFID信息,找出牛奶的运输路线;通过time,location属性确定牛奶在各个中转站的逗留时间,以及同期存储和运输的产品;另外通过对time属性进行调查,可以得到牛奶经过各个运输段所用的时间,可以分析这些时间,检查是否存在异常;通过对所经过的中转站、运输线路进行调查,对仓库、运输工具,以及一起被存储、运输的产品进行调查(是否也存在变质情况,是否会导致牛奶变质等),得到牛奶在运输或存储中发生变质的概率估计。
4.16
(a)基本方体单元的最大个数为:p^n
(b)基本方体单元的最小个数为:p
(d)单元的最小个数:p*2^n-p+1