从产品的角度看数仓

背景:因为业务报表需求,需要高精准性,但是公司此前没有做数据产品,所有的数据报表都是从由业务系统直接去抽取。但我们做的是医院的业务系统,一个大三甲的医院三个月就有60多万条数据,导致精准度非常差,数据混乱,脏数据太多,没有办法只能下苦力来做个简单的数据产品做支撑了。

技术的角度:

很热的词:用Hadoop做底层,MapReduce来做存储,还有一些很技术的词

数据抽取工具:kafka、flume、sync

数据清洗:hive/tez、pig/tez、storm、spark

数据存储:hadoop、hbase,ES、redis

任务管理:azkaban、oozie

数据同步:datax、sqoop

如果你是一位技术转的数据产品经理,查一查应该能够理解,但是如果无技术根基,相信你此刻应该很懵逼。

产品的角度:

从产品的角度来梳理,就很好理解了,我们来上个图


详细的ETL流程

从底层向上解释一下

1 所有的数据都来源于业务系统、埋点,日志,但是这些数据很多是用不到的。比如我只需要分析上个月的不同地区、不同年龄段人群的平均下单金额,那么就不需要非相关的数据了。

2 所以第二步,我们只需要抽取需要的数据,这个过程即ETL,抽取我们需要的数据作为备份数据,这个过程是实时的,数据的结构与业务系统一致,可以说是完全一摸一样。我们把这个备份数据叫做ODS数据层。

这里其实是有些小问题的,比如某用户下单了,我们实时的存进ODS,但是过了一个小时,他又退单了,这个时候如何做呢,可以直接修改ODS吗?是不行的,为什么?

因为ODS一般是用hadoop去做的,那么修改所耗费的资源很大,数据量很多的时候就会很消耗资源。哪怕不是用hadoop的技术去实现的,比如MongoDB,修改的话也是很麻烦。

所以一般都用折中的方式,在每写一个数据时,都会添加额外的时间维度、时间刻度,数据来源。这里的ETL需要实时抽取

3 DW层 数据模型层  抽取到ODS后,一般采用每天统一做处理,将数据根据分析目的去做一个数据集市、或者数据仓库(多个数据集市联合)。


主题数据集市

数据集市由事实表和维表构成,这里会有星型模型(集市)、雪花模型(集市)、星座模型(数仓);这三种模型可以自行百度,比较好理解。

建立好事实表和维度表之后,数据集市或者数据仓库就初步搭建好了,接下来需要对这些数据做汇聚。

从ODS到数据模型一般是每天汇总一次

4 在多维数据模型上做数据聚合

我们做主题数据集市都是有目的的,我们举例的目的为:分析上个月的不同地区、不同年龄段人群的平均下单金额。


日期维

地区维:34各省

年龄段维:18岁以下,18-25,25-35,35-60,60以上

订单指标:下单金额,下单数量,平均下单金额

那么对应的多维数据模型如下


多维数据模型

这些对应的维度不是一个值,而是一个维度的值。

我们拿订单指标举例,取不同维度的任意一个值:它对应某一个地区,某一个年龄段,某一个天的(下单金额,下单数量,平均下单金额)。

这里有 30(30天)*34(34个省)*4(4个年龄段) *3(3个时间维度) = 12240个值。

如果我们需要考虑的维度很多呢,比如10个属性,每个属性有10个维度,那么就是10^10  =  10000000000的数据。

做数据聚合也是每天聚合一次。

用一个数据立方体的图来辅助理解


数据立方体

每个维度都去做聚合的好处在于,面对上PB、TB的数据时,能够快速的找到需要的数据,不需要再去跑一遍。

同时能够支撑业务部分或者分析部分的即席查询,也能支撑自定义报表。

但是是否需要用多维数据模型,需要你根据公司的业务来决定,如果没有大量的数据分析,那么只需要做简单的数据聚合即可。



在做数仓的时候,还需要考虑数据的补偿,异常数据的处理。



数仓是用于构建数据中台的,对于数据量小的业务,从业务数据库直接导出excel,再做数据分析也是可以的。


结尾:在做数据产品的时候,是需要搭建数仓的,但是对于大多数产品经理来说,做好数据指标体系,完成数据分析就可以了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335