大数据的概念是在BI的基础之上发展起来的,现在所讲的大数据在大范围的情况下,是广义的机器学习,业界有这样一个公式:
机器学习=大数据+特征+模型
从如上这个等式可以看出,机器学习如果去掉了特征和模型两个维度,那么就是传统的BI,基于数据层面进行分析、展示。
BI,商业智能,是将数据挖掘技术用于行业解决方案中去,从这点上来讲,传统的BI更象是单机版的机器学习,而现在所提的大数据概念是在分布式数据处理、存储、计算技术逐步成熟的前提下,所提出的概念。更象是要区分于以前所提BI而新起的名字。
从本质上来讲,业务层面,BI和大数据之间的差异不大,而差异大的地方在于传统BI所采用的技术与现有的大数据采用的开源平台技术,有点类似于,传统的BI和Microsoft类似,而大数据与Linux比较类似。
所以,大数据就是在分布式环境下的BI。梳理大数据集成工程的理论方法,可以借鉴于传统BI工作开展方法,形成大数据集成工程方法论。