上一篇《数据库基础概念及相关关系》中提到的数据库基本概念时,将DM解释成了数据挖掘(DataMining),其实DM还有另一层意思,也就是数据集市(DateMart),下面就进行一下补充
定义
DM(DateMart)数据集市—— 为满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
- 独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。这种数据集市开发周期一般较短,具有灵活性,但是因为脱离了数据仓库,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据。(不推荐)
- 从属型数据集市:数据来自于企业的数据仓库,这种会导致开发周期的延长,但是从属型数据集市在体系结构上比独立型数据集市更稳定,可以提高数据分析的质量,保证数据的一致性。
描述
数据集市DM与数据仓库DW的差别
在数据结构上,数据仓库是面向主题的、集成的数据的集合。而数据集市通常被定义为星型结构或者雪花结构,数据集市一般是由一张事实表和几张维度表组成的。
特征
- 数据集市是一组特定的、针对某个主题域、某个部门或者某些特殊用户而进行分类的数据集合,也可以说是小型的数据仓库。用户可以在数据集市中快速的对数据进行访问和对报表进行展示,同时在数据结构的内部对数据进行必要的汇总和优化。
- 数据仓库到数据集市的过程是从数据规范化到多维建模的过程,包括数据仓库内的实体转化成事实表、维表,以及将实体之间的关系转换成多维映射。
- 数据仓库项目中,数据集市通常按照地区、日期等维度对数据进行组织和汇总,因此数据仓库转化成数据集市也是按照轻量级汇总或者中度汇总和计算完成的。
- 数据集市里的数据一般都是从数据仓库中经过转换、汇总计算获取的,直接支撑前段的应用需求。数据集市的数据通常会作为olap服务和应用服务的数据输入。
-
数据集市一般不会从数据源系统中直接抽取,即一般不提倡建立独立的数据集市,因为这有可能导致数据的不一致性,同时也会增加多个额外的进程,从而导致资源的浪费。
总结
综合这两篇的内容,更确切的数据流转过程是
DB→ETL→ODS→DW→DM(DataMart)→OLAP/DM(DataMining)→BI