1、数据仓库的目的及用途
数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成、数据变换。
构造数据仓库的构成可以看做数据挖掘的一个重要预处理步骤。同时,数据仓库提供联机分析处理工具(OLAP),用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。
2、数据仓库体系结构
数据仓库采用三层体系结构:
1)底层是仓库数据库服务器,几乎总是一个关系数据库系统。使用后端工具和实用程序,由操作数据库和其它外部数据源提取数据,放入底层。这些工具和使用程序进行数据提取、清理和变换,以及装入和刷新,以更新数据仓库。
2)中间层是OLAP服务器,其典型的实现使用关系OLAP模型或使用多维OLAP模型。
3)顶层是前端客户层,它包括查询和报告工具、分析工具和数据挖掘工具,如:趋势分析、预测。
3、数据仓库模型
从结构的角度看,有三种数据仓库模型:企业数仓、数据集市、虚拟仓库。
1)企业数仓:搜集了关于主题的所有信息,跨越整个企业。它提供企业范围内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是多功能的。通常,它包含细节数据和汇总数据。
2)数据集市:包含业务范围数据的一个子集,对于特定的用户群是有用的,起范围限于选定的主题。例如:销售数据集市可能限定其主题为顾客、商品和限售。包括在数据集市中的数据通常是汇总的。
3)虚拟仓库:是操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化,虚拟仓库易于建立,但需要操作数据库服务器还有余力。
4、数据仓库的数据模型
数据仓库和OLAP工具基于多维数据模型,这种模型把数据看做数据立方体形式。
多维数据模型有:星型模式、雪花模式、事实星座。
1)什么是数据立方体:数据立方体允许以多为对数据建模和观察,它由维和事实定义。
其中,维是一个单位想要记录的透视或实体。
其中,事实是数值度量的,把他们看做数量,是因为我们想根据他们分析维之间的联系。
2)数据模型:
a. 星形模型:是最常见的模型范型。其中数据仓库包含一个大的中心表(事实表),它包含大批数据并且不冗余;以及一组小的附属表(维表),每维一个。这种模式很像是星光四射,维表显示在围绕中心表的射线上。
b. 雪花模型:是星型模型的的变种。其中某些维表被规范化,因为把数据进一步分解到附加的表中。结果模式图形成类似于雪花的形状。其和星型模型不同的主要点:雪花模式的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间。尽管雪花模式减少了冗余,但在数据仓库设计中,它不如星型模式流行。
c.事实星座:复杂的应用可能需要多个事实表共享维表。这种模式可以看做星型模式的汇集,因此称做星系模式或事实星座。