分析师要懂的数仓知识

为什么学数据仓库

工作中经常去数据库中找数据做分析,也和数仓同事对接过,做过一些表,但是只是对一些固定的事实和维度表熟悉,对数仓的整体架构、运作流程却没有一个大概的了解。学习数据仓库是为了对数据来源、数据生产方式以及数据呈现方式有一个概览。其一是加深自己对数据的技术层面上的了解,其二是方便之后和数仓同学的沟通。

为什么要有数据仓库

一个技术的出现,必定是为了解决一个需求。数据仓库技术的出现,我认为需求是来自于公司管理层、分析师和业务方,他们想要快速、高效、准确的了解公司的运营数据,以便快速决策和迭代公司运营策略,提升公司的竞争力。有了这个需求点,我们就可以知道为什么不用公司操作型数据库作为数据来源,而专门建设一个数据仓库,以承载企业内部的分析需求。因为操作型数据库不能针对特定主题查看数据,而且当数据比较大的时候,查询速度会比较慢。而且公司的操作型数据库是面向用户的,因为客户的需求是数据快速响应,导致操作型数据库基本上都是是零散且无主题的。

什么是数据仓库

数据仓库之父Inmon对数据仓库的定义是:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,它用于支持企业或组织的决策分析处理。

  • 面向主题:其实就是根据分析需求做的整理,然后加工成一个主题,方便之后的分析。比如说我想看企业订单数据,如果是在操作型数据库上,订单可能来自多个业务,存放在多个表中。数据仓库为了方便分析,就把所有的订单数据全部汇总在一个事实表上面,业务作为一个维度加在表里面,这样我的表就是面向订单的主题,以后我想看数据,就从订单表中取出数据即可,如果要分业务查询,可以加一个限制条件即可。
  • 集成的:数据源是有多种的,有的是从数据库,有的手动填写上传的,有的文档资料等等。但是数据仓库一定是把这些数据全部整合完,消除源了数据的一致性。
  • 相对稳定的:数据不会有很大的波动。
  • 反映历史变化:存放的就是历史数据。

数据仓库的构成

数据仓库系统的体系结构:


image.png

数据仓库的术语

  • ETL:ETL是Extract(数据抽取)、transformation(数据转换)和load(数据加载)的缩写。ETL贯穿于整个数据仓库。目的是将企业中的多源数据整合到一起。目前数据清洗和抽取,一般都是对Log日志表的清洗,Log日志是根据之前埋点,之后用户触发而上传的日志数据。里面数据字段多、粒度非常细,不方便直接查询,所以需要进行清洗转换,然后加载到一个新的表中。
  • 元数据:是关于数据的数据。里面存放着数据所属区域、取值范围、业务规则、甚至ETL规则和数据来源信息。是数据仓库的百科全书。但是经常不被重视,到时许多表在数据仓库中,却不知道如何使用,准确度如何。我经常听到有人抱怨,说有些表谁都不知道它怎么来的,准确性如何,全靠比对,甚至要自己摸索到日志表上面。
  • 数据集市:数仓建好后,随着使用数据仓库的部门增多,对数据仓库的资源的竞争也会成为一个难题。各个部门都希望定制数据,所以有了数据集市。相比数据仓库,数据集市主题较少、历史时间较短,更利于查询。
  • OLAP:联机分析处理。针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问, 并进行各种复杂的分析和预测工作。

数据仓库构建方法

  • 业务处理:首先是要和业务方了解业务处理过程,了解底层数据的收集方式以及数据质量。
  • 确定粒度:方便理解的话,就是‘数据是要到年?月?日?小时?’
  • 确定维度:比如说分业务部门、分城市、分性别之类
  • 确定事实:我觉得就是指标,比如说订单表里面,事实就是下单量、下单金额等等。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容