数据仓库快速入门教程1简介

数据仓库是从各种渠道收集和管理数据的技术,可提供有意义的业务洞察,战略性地使用数据。
它用于查询和分析而不是事务处理,是将数据转换为信息并及时向用户提供的过程。

决策支持数据库(数据仓库)与组织的运营数据库分开维护。 但是数据仓库不是产品,而是环境。 它是属于信息系统,向用户传统运营数据存储难以访问或展示的当前和历史决策支持信息。

数据仓库是BI系统的核心,BI是为数据分析和报告而构建的。

你们很多人都知道,3NF设计的库存系统数据库很多都有相互关联的表。 例如,有关当前库存信息的报告可包含超过12个连接条件,查询慢。 数据仓库提供了一种新设计,可以缩短响应时间,提高报表和分析查询的性能。

数据仓库系统的其他名称:

  • 决策支持系统(DSS Decision Support System)
  • 执行信息系统(Executive Information System)
  • 管理信息系统(Management Information System)
  • 商业智能解决方案(Management Information System)
  • 分析应用(Analytic Application)
  • 数据仓库(Data Warehouse)
图片.png

数据仓库的历史

数据仓库使用户能够理解并提高其组织的绩效。 随着计算机系统变得越来越复杂并需要处理越来越多的信息,仓库数据的需求也在不断变化。

  • 1960年 - Dartmouth和General Mills在一个联合研究项目中,提出了维度概念。

  • 1970 - Nielsen和IR为零售引入了维度数据。

  • 1983- Tera推出了专为决策支持而设计的数据库管理系统

  • 数据仓库始于20世纪80年代后期,当时IBM工作人员Paul Murphy和Barry Devlin开发了业务数据仓库。

  • 然而,真正的概念是由Inmon Bill提出的。 他是数据仓库之父。 他撰写了关于仓库和公司信息工厂的建设,使用和维护的各种主题。

Datawarehouse如何运作?

数据仓库作为中央存储库,信息从一个或多个数据源到达。 数据从事务系统和其他关系数据库流入数据仓库。

数据可能是:

  1. 结构化的
  2. 半结构化
  3. 非结构化数据

处理,转换和提取数据,以便用户可以通过商业智能工具,SQL客户端和电子表格访问数据仓库中的已处理数据。 数据仓库将来自不同来源的信息合并到综合数据库中。

通过合并所有这些信息,组织可以更全面地分析其客户。 这有助于确保它已考虑所有可用信息。 数据仓库使数据挖掘成为可能。 数据挖掘旨在寻找可能导致更高销售额和利润的数据模式。

数据仓库的类型

1.企业数据仓库:

企业数据仓库是一个集中式仓库。 它为整个企业提供决策支持服务。 它提供了统一的方法来组织和表示数据。 它还提供根据主题对数据进行分类并根据这些划分进行访问的能力。

2.运营数据存储:

只需要数据存储的运营数据存储(也称为ODS Operational Data Store)。 在ODS中,数据仓库实时刷新。 因此,它广泛地用于诸如存储雇员记录等。

3.数据集市:

数据集市是数据仓库的子集。 它专门针对特定业务部门而设计,例如销售,财务,销售或财务。 在独立的数据集市中,数据可以直接从源收集。

数据仓库的一般阶段

离线操作数据库:

在此阶段,数据只是从运营系统复制到服务器。

离线数据仓库:

数据仓库中的数据定期从运营数据库更新。 数据仓库中的数据经过映射和转换,以满足数据仓库的目标。

实时数据仓库:

运营数据库中发生任何事务,就会更新数据仓库。 例如,航空公司或铁路预订系统。

集成数据仓库:

运营系统执行事务时,数据仓库会不断更新。 然后,Datawarehouse生成传递回运营系统的事务。

数据仓库的组件

数据仓库的四个组成部分是:

加载管理器:加载管理器也称为前端组件。 它执行与提取和加载数据到仓库相关的所有操作。 这些操作包括转换准备用于进入数据仓库的数据。

仓库管理:仓库管理执行与仓库中数据管理相关的操作。 它执行数据分析等操作,以确保一致性,索引和视图的创建,非规范化和聚合的生成,源数据的转换和合并以及归档和备份数据。

查询管理器:查询管理器 也被称为后端组件。 它执行与用户查询管理相关的所有操作操作。 此数据仓库组件的操作是对相应表的直接查询。

最终用户访问工具:

这分为五个不同的组,如1.数据报告 2.查询工具 3.应用程序开发工具 4. EIS工具 5.OLAP工具和数据挖掘工具。

参考资料

谁需要数据仓库?

  • 依赖大数据的决策者
  • 使用自定义复杂流程从多个数据源获取信息的用户。

航空公司:

在航空公司系统中,它用于职员分配,路线盈利能力分析,旅客计划促销等。

银行业:

管理可用的资源。 一些银行也用于市场调研,产品和运营的绩效分析。

卫生保健:

医疗保健行业还使用数据仓库来制定战略并预测结果,生成患者的治疗报告,与保险公司等共享数据,医疗援助服务等。

公共部门:

在公共部门,数据仓库用于情报收集。 它有助于政府机构维护和分析每个人的税务记录,健康政策记录。

投资和保险业:

分析数据模式,客户趋势以及跟踪市场变动。

零售:

在零售连锁店中,数据仓库广泛用于分销和营销。 它还有助于跟踪项目,客户购买模式,促销以及用于确定定价政策。

电信:

产品促销,销售决策和制定分销决策。

酒店业:

设计和估计他们希望根据客户的反馈和旅行模式定位客户的广告和促销活动。

实施数据仓库的步骤

  1. 企业战略 :在此我们确定技术,包括当前的架构和工具。 我们还确定事实,维度和属性。 还传递了数据映射和转换。
  2. 分阶段交付 :应根据主题领域分阶段实施数据仓库。 应首先实施预订和计费等相关业务实体,然后相互集成。
  3. 迭代原型 :数据仓库应该迭代开发和测试。

这里是Datawarehouse实施的关键步骤及其可交付成果。

图片.png

实施数据仓库的最佳实践

  • 确定计划以测试数据的一致性,准确性和完整性。
  • 数据仓库必须很好地集成,定义良好并带有时间戳。
  • 在设计Datawarehouse时,请确保使用正确的工具,坚持生命周期,注意数据冲突并准备好从错误中学习。
  • 切勿更换运营系统和报告
  • 不要在提取,清理和加载数据上花费太多时间。
  • 确保所有利益相关者(包括业务人员)参与数据仓库实施流程。 确定数据仓库是联合/团队项目。 您不希望创建对最终用户无用的数据仓库。
  • 为最终用户准备培训计划。

为什么我们需要数据仓库? 优点缺点

数据仓库的优点:

  • 数据仓库允许业务用户快速访问来自某些来源的关键数据。
  • 数据仓库提供有关各种跨职能活动的一致信息。 它还支持临时报告和查询。
  • 数据仓库有助于集成许多数据源,以减少生产系统的压力。
  • 数据仓库有助于缩短分析和报告的总周转时间。
  • 重组和集成使用户更容易用于报告和分析。
  • 数据仓库允许用户访问多个源关键数据。 因此,它节省了用户从多个源检索数据的时间。
  • 数据仓库存储大量历史数据。 这有助于用户分析不同的时间段和趋势,以便进行未来的预测。

数据仓库的缺点:

  • 不是非结构化数据的理想选择。
  • 数据仓库的创建和实施肯定会有时间混乱。
  • 数据仓库很容易过时
  • 难以对数据类型和范围,数据源架构,索引和查询进行更改。
  • 数据仓库看起来很简单,但实际上,对于普通用户来说,它太复杂了。
  • 尽管在项目管理方面做出了最大努力,但数据仓库项目范围仍将不断增加。
  • 有时仓库用户会制定不同的业务规则。
  • 组织需要将大量资源用于培训和实施目的。

数据仓库的未来

  • 监管约束的变化可能会限制组合不同数据来源的能力。 这些不同的来源可能包括难以存储的非结构化数据。
  • 随着数据库规模的增长,对构成非常大的数据库的估计值继续增长。 构建和运行数据仓库系统非常复杂,而且数据仓库系统的规模也在不断扩大。 目前可用的硬件和软件资源不允许在线保存大量数据。
  • 多媒体数据检索问题。

数据仓库工具

市场上有许多数据仓库工具。 这里有一些最突出的:

1.MarkLogic:

MarkLogic使用一系列企业功能使数据集成更容易,更快捷。 此工具有助于执行非常复杂的搜索操作。 它可以查询不同类型的数据,如文档,关系和元数据。

http://developer.marklogic.com/products

甲骨文:

Oracle是业界领先的数据库。 它为内部部署和云端提供了广泛的数据仓库解决方案选择。 它有助于通过提高运营效率来优化客户体验。

https://www.oracle.com/index.html

3.亚马逊RedShift:

它使用标准SQL和现有BI工具分析所有类型数据的简单且经济高效的工具。 它还允许使用查询优化技术运行针对数PB的结构化数据的复杂查询。

https://aws.amazon.com/redshift/?nc2=h_m1

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容

  • 项目管理术语英汉对照表2018-7-20 A Abstract Resource 抽象资源 Abstraction...
    007明_阳阅读 6,035评论 0 51
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,894评论 2 89
  • 为什么画:对于美学来说,概念多且相近,容易混淆,美学的导论是要精读的部分。以前只会一点点往下摘抄,无法连系上下关键...
    礼昕在绘素里画画阅读 242评论 0 0
  • 昨天微博刷到詹青云的辩论,哇,要集齐多少书才能说的出这样的论点,OMG被圈粉了。以前看着奇葩说这个名字我就不想看,...
    无问无期阅读 629评论 0 0
  • 今天自己的内心有很多察觉。觉得自己会常常被一些小事情左右,而让自己滋生出无价值感。晚上陪文文去打针,得知...
    赤色风铃66阅读 97评论 0 0