传统数据仓库基本构架
参考:http://webdataanalysis.net/web-data-warehouse/data-warehouse-frame/
![]( /Users/canhuamei/desktop/screamshot/Screen Shot 2016-11-28 at 5.16.07 PM.png)
工具选型
参考:
http://blog.csdn.net/athenaer/article/details/7935147
并行数据仓库
http://blog.csdn.net/heiyeshuwu/article/details/51306735
平台建设各个方向的考虑
一个非常细致的分享:
http://blog.csdn.net/nisjlvhudy/article/details/7898495
少量数据
传统 db+sql=>报表->web 显示
数据来源:
• 业务积累
• 网络爬虫
大量数据
• 容量大
• 维度大
• 空间数据
(大)数据仓库 hive+hive sql=》产生数据结果几十万??如何能到线上业务提供服务
输出:不是简单的 web 能显示的,大的 excel 表,列多
• 导入线上数据到mysql,oracle,hbase
• 线上查询如果结果数据量大,一般 sql 支持不了,建索引(lucene)或者说用分布式内存服务器(memcahce)等
变离线为实时
• 监控或业务数据变化,通过 storm,写入集群,分析
大数据平台构架
http://blog.csdn.net/czp11210/article/details/51643782
https://zhuanlan.zhihu.com/p/22020104
https://zhuanlan.zhihu.com/p/22047198