打造轻量级OLAP(一):Spark计算Cube - Treant - 博客园
http://www.cnblogs.com/en-heng/p/5382224.html
打造轻量级OLAP(一):Spark计算Cube
有一个数据多维分析的任务:
日志的周UV;
APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV);
手机机型的收集量及标注量,TOP 20 机型(周UV),TOP 20 手机厂商(周UV);
初始的解决方案:Spark读取数据日志,然后根据分析需求逐一进行map、distinct、reduceByKey得到分析结果。但是,这种方案存在着非常大的缺点——重复扫描数据源多次。
- Pig
Pig提供cube关键字做OLAP,将dimension分为了两类: