数据仓库-基本概念

引言

数据仓库作为单独的数据存储创建与组织中,其主要目的是数据分析,专为查询而设计。

将数据仓库的创建转换为单独的分析型数据库主要有两个原因:

  1. 如果操作型日常任务需要跟分析型查询竞争计算资源时,那么与数据相关的操作型日常任务的性能就会大幅降低。
  2. 构建一个可以同时用于操作型和分析型的数据库通常不太可能。

操作型信息和分析型信息

操作型信息是为支持日常操作需要所收集和使用的信息。例如存取款时的银行卡信息,购买机票时的个人信息,所以操作型信息有时候也称为事务信息。

分析型信息指的是为支持数据分析任务的决策所收集和使用的信息。例如存取款数量的最高时段和最低时段,20岁到25岁航班目的地的分布情况。

虽然分析型信息以操作型信息为基础,但是两者截然不同。分析型和操作型信息的差别可以分为三类:数据组成差别、技术差别、功能差别。

数据组成差别

操作型系统的时间范围比分析型系统更短。
通常情况下,操作型系统中数据的时间范围为60~90天,90天以后的数据通常会从操作型数据库中移除并进行归档。

在操作型数据库中保存各时间段的所有数据可能造成不必要的混杂,继而由于这些多余而庞大的数据空间,操作型数据库的查询会变得缓慢。

另一方面,分析型数据库通常需要提供数年的数据趋势和模式分析。因此分析型数据库比操作型数据库具有更长的时间范围。

数据细节层次差别
操作型数据库通常反映的是数据细节。
数据细节就是指数据的基础属性。比如通话记录的起始时间和结束时间。
但通常会有一些数据需要经过计算才能得到,比如本月的通话时长,这种称为汇总数据,因为汇总数据变化频繁,因此不会存储这个属性,而是作为派生属性。派生属性通常是在查询时计算得到的。

但是对于分析型数据库来说,派生属性也是可以存储的,因为作为历史数据,汇总数据并不会发生改变,存储之后,将会提高查询效率。

数据时间表示差别
操作型数据库通常反映的是当前世界事务状况,而分析型数据库既能表示当前状态还能表示过去某个时间的快照。

技术差别
  1. 查询数据总量和查询频度差别
    操作型数据库查询数据量更小,而查询频率更高。
  2. 数据更新差别
    操作型数据库中的数据由用户进行有规律的更新。而分析型数据库中的数据是不允许更新的。
  3. 数据冗余差别
    操作型数据库的主要目标就是减少数据冗余。使冗余最小化的主要原因是为了减少更新异常的可能。
    因为在分析型数据库中不允许进行更新操作,因此减少数据冗余的必要性不高。
功能差别
  1. 数据读者差别
    操作型数据支撑着商业公司及组织机构的日常工作,会被大量业务员和用户操作。
    而分析型数据只会被少量人用来进行时长决策。
  2. 数据定位差别
    操作型数据库通常是为了支持某个为业务操作及处理过程提供服务的应用而创建。
    相反,分析型数据是为特定的业务主题领域的分析任务而创建,如销售、收益、成本、利润等。
    分析型数据库围绕待分析的主题而建,因此分析型数据库又称为面向主题型数据库。

数据仓库定义

数据仓库:数据仓库是一种结构化的数据存储形式,其存储的数据具有集成性、面向主题、企业范围跨度、历史性以及及时变性的特点。数据仓库的目的是用于对分析型数据进行检索。数据仓库可以保留细节型或汇总型数据。
数据仓库是一种最基本的分析型数据系统。

  1. 结构化数据存储
    数据仓库是一种保存了可分析的有用数据的数据库。任何一个数据库都是一种结构化的数据存储,结构表示其元数据。因此,数据仓库作为数据库的一种,也是一种结构化的数据存储。换句话说,数据仓库并不是大量随机数据的杂乱集合。

  2. 集成性
    数据仓库的目的是为分析型信息创建一种有序的存储形式,这种存储与已有的操作型数据库在组织上是物理分离的。数据仓库集成了各种操作型数据库中各种可分析的有用数据到一个单一的数据仓库中,集成过程不是从操作型数据库中移除,而是复制。

  3. 面向主题
    数据仓库是为了对业务主题领域进行分析而创建的。

  4. 企业范围
    数据仓库是一种关于可分析的有用数据的存储形式。术语“企业范围”是指数据仓库可以为包含在其中的信息提供一个机构范围的全局视图。

  5. 历史性
    数据仓库中的数据具有更长的时间跨度。

  6. 时变性
    “时变性”是指数据仓库包含来自其时间范围内不同区间的数据片段或子图快照。

  7. 分析型信息的检索
    数据仓库是为了分析型信息的检索而建的,其唯一可用的功能就是检索。数据仓库中的数据具有非易失性、稳定以及只读的特点。

  8. 细节数据和汇总数据
    数据仓库可能包含细节数据、汇总数据或者两者皆有,具体根据主题而定。

数据仓库组件

每个数据仓库系统的核心都有三个主要组件:源系统、提取-转换-加载(ETL)架构和数据仓库本身。

源系统

在数据仓库领域中,源系统(source system)是指那些为数据仓库分析主题提供可分析的有用信息的操作型数据库以及其他操作型数据存储系统。

ETL

ETL主要包含如下几个任务:

  • 从操作型数据源中提取可分析的有用数据(Extraction)
  • 转换数据使其满足面向主题目标数据仓库的结构,同时利用数据清洗和数据净化过程来确保转换后的数据质量。(Transformation)
  • 将转换后且有质量保证的数据加载到目标数据仓库中。(Load)
数据仓库

数据仓库是为集成来自源系统的分析型数据提供存储的系统,又称为目标系统,意思是数据仓库是源系统中数据的目的地。典型的数据仓库会周期性地从操作型数据源中检索精选好的可分析的有用数据,并且这是一个持续不断的过程。

数据仓库应用

数据仓库应用是一种能够直接访问数据仓库的前端应用程序,也称为BI(商务智能)应用。

数据集市

数据集市是一种与数据仓库具有相似准则的数据存储形式,但相比数据仓库,其范围更小,通常只与一个主题相关,不涉及整个企业范围。

数据仓库与数据集市的区别:

数据仓库 数据集市
主题 多个 单个
数据源 较多 较少
典型大小 非常大(通常为T字节甚至更大) 没有那么大
实现时间 相对较长(整月、整年) 没有那么长
关注范围 整个组织范围 通常小于整个组织范围

数据集市有两种主要类别:独立数据集市和非独立数据集市

  • 独立数据集市
    是一种单独的数据集市,创建形式与数据仓库一致,有自己的源系统和ETL架构。

  • 非独立数据集市
    没有自己的源系统,数据来源于数据仓库

数据仓库开发步骤

数据仓库开发步骤

后面会根据这个开发步骤,细化实战。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,482评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,377评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,762评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,273评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,289评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,046评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,351评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,988评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,476评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,948评论 2 324
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,064评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,712评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,261评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,264评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,486评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,511评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,802评论 2 345

推荐阅读更多精彩内容