什么是上卷下钻?
在介绍之前,先引入3个概念
1.数据仓库
数据仓库收集了整个组织(组织可以是独立的,也可以是混合的,重点是分主题)的主题信息,因此它是组织范围的,可以看作存放商品的仓库
2.数据集市
如果把数据比作商品,集市就是来“售卖加工”数据的,数据集市是数据仓库的子集,比如一个数据仓库是金融类仓库,金融又包括现金数据,黄金数据,股票数据,证券数据等,这里就可以把金融类以上包括的数据,看作一个数据集市,这些数据集市就是对数据加工处理的。数据集市内,数据集市之间都可以实现数据的关联。
3.概念分层
概念分层比较抽象了,简单做个比喻,概念的分层可以看作是大楼分层。那么又问了。概念分层和数据又啥关系,比如,你到商场乘坐电梯,当电梯上升的时候,看到的人会越来越小,小到就是一个黑点,这时候你不会在关系他们的模样了,而是关心到多少人,男女比是多少。逆向思维,当电梯下降,我们可以清楚的看到一个人的长相,身材,在近点就可以看到鼻孔的鼻屎。
嗯,相关概念介绍完了,说说什么是上卷
上卷(汇总数据)
上卷就是乘坐电梯上升观测人的过程。
按城市汇总的人口数据上卷,观察按国家人口的数据。就是由细粒度到粗粒度观测数据的过程,应该还会记录相应变化。
下钻(明细数据)
上卷的反向操作,
可以按照城市汇总的人口数据下钻,观察按城镇人口汇总的数据。由粗粒度变为细粒度。
kylin如何做到上卷下钻
其实,这时候我们发现就是在维度上做文章了,尤其是那种层级维度,但仅仅是维度不够的,有时候还需要指标,比如消费金额,会根据消费金额的大小,划分层次,也是概念分层的一种体现。
下面说下kylin是如何做到的。
刚才说到,数据仓库是面向主题的,那么这个主题可以看作是维度的组合,或者就是看问题的角度。
个人感觉依据主题去设置聚合组。
选择具有逻辑层次的维度设置为层级维度
关于指标集划分可以设置为衍生维度
举个例子
select * from tablename groupby A
select * from tablename groupby A,B
select * from tablename groupby A,B,C
这三个自上而下看就是下钻,自下而上看就是上卷。