数据仓库

1、数据仓库的目的及用途

数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成、数据变换。

构造数据仓库的构成可以看做数据挖掘的一个重要预处理步骤。同时,数据仓库提供联机分析处理工具(OLAP),用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。

2、数据仓库体系结构

数据仓库采用三层体系结构:

1)底层是仓库数据库服务器,几乎总是一个关系数据库系统。使用后端工具和实用程序,由操作数据库和其它外部数据源提取数据,放入底层。这些工具和使用程序进行数据提取、清理和变换,以及装入和刷新,以更新数据仓库。

2)中间层是OLAP服务器,其典型的实现使用关系OLAP模型或使用多维OLAP模型。

3)顶层是前端客户层,它包括查询和报告工具、分析工具和数据挖掘工具,如:趋势分析、预测。


三层数据仓库结构(来源:数据挖掘概念与技术)


3、数据仓库模型

从结构的角度看,有三种数据仓库模型:企业数仓、数据集市、虚拟仓库。

1)企业数仓:搜集了关于主题的所有信息,跨越整个企业。它提供企业范围内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是多功能的。通常,它包含细节数据和汇总数据。

2)数据集市:包含业务范围数据的一个子集,对于特定的用户群是有用的,起范围限于选定的主题。例如:销售数据集市可能限定其主题为顾客、商品和限售。包括在数据集市中的数据通常是汇总的。

3)虚拟仓库:是操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化,虚拟仓库易于建立,但需要操作数据库服务器还有余力。

4、数据仓库的数据模型

数据仓库和OLAP工具基于多维数据模型,这种模型把数据看做数据立方体形式。

多维数据模型有:星型模式、雪花模式、事实星座。

1)什么是数据立方体数据立方体允许以多为对数据建模和观察,它由维和事实定义

其中,是一个单位想要记录的透视或实体。

其中,事实是数值度量的,把他们看做数量,是因为我们想根据他们分析维之间的联系。

2)数据模型:

a. 星形模型:是最常见的模型范型。其中数据仓库包含一个大的中心表(事实表),它包含大批数据并且不冗余;以及一组小的附属表(维表),每维一个。这种模式很像是星光四射,维表显示在围绕中心表的射线上。


星型模型

b. 雪花模型:是星型模型的的变种。其中某些维表被规范化,因为把数据进一步分解到附加的表中。结果模式图形成类似于雪花的形状。其和星型模型不同的主要点:雪花模式的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间。尽管雪花模式减少了冗余,但在数据仓库设计中,它不如星型模式流行。


雪花模型

c.事实星座:复杂的应用可能需要多个事实表共享维表。这种模式可以看做星型模式的汇集,因此称做星系模式或事实星座。


事实星座
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 1 数据仓库的基本概念 1.1 为什么要使用数据仓库   数据仓库是从数据库基础上发展而来,主要是为了方便组织、理...
    事成君阅读 870评论 0 1
  • 10.1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企...
    临时_01e2阅读 565评论 0 0
  • 数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。不同于面向OLTP(On-Lin...
    VentLam阅读 4,445评论 6 36
  • 10.1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企...
    码农GG阅读 472评论 0 0
  • 一、系统结构 流程:源数据层—>数据加工层—>数据仓库层—>数据应用层—>数据访问层左侧:结构化数据(Mysql)...
    Hill_GM阅读 6,987评论 0 27