现在混在互联网金融圈,负责的两条产品线都与大数据有关,所以开始迎着头皮学习大数据。但找资料的时候发现好多的建模啥的都是数据挖掘~数据清洗啥的,心里不免开始犯嘀咕,这不是互联网前时代-数据仓库时就用的技术吗?怎么现在还在用?尤其在进行用户画像研究的时候,以及风控模型的建立时,这种困惑也就越多。
可我要搞的是大数据方向的用户画像啊!
为了避免让别人那概念乱忽悠我,最近理了一下思路,发现了一些不一样的东西,用以简单区分一下两者的区别和关系。
一,数据仓库是大数据的模块单元。严格来说,数据仓库以及与他密切相关的技术,比如数据清洗-数据挖掘等,我们在互联网时代还在继续用。我们很多公司做大数据分析模型的时候,还是要首先建立数据仓库的,只不过数据仓库包含的数据维度一般都是公司自有系统的业务数据。数据建模时,对这些数据的处理基本还是沿用大数据前时代的数据处理技术的。但大数据时代,光是公司自有系统的数据维度已经越来越不够用了,都需要引入其他的数据来源,比如社区-电商等数据。这样多维度的数据是以不同的数据仓库,不同的数据处理办法,然后利用统一的标识串联起来的。从这个角度来说,数据仓库是大数据分析及建模的数据单元。
二,不同时代的数据仓库作用不同。大数据前时代,我们建立数据仓库,进行数据分析,其意义在于用过去的数据来对未来进行预测,是没有“现在”的;而大数据时代强调的是对“现在”的影响。以魔兽世界网络游戏为例,暴雪想让游戏更多的人喜欢,他们就会对游戏中已经发生的数据进行分析,作出统计以后发现大家都想要做“法师”,作出预测法师会超标影响游戏平衡,于是会在下一个版本中把法师削弱;那大数据时代呢,我们会把游戏中的每一项数据都做成数据维度,并与游戏平衡模型挂钩。数据实时采集,实时分析,最后导向结论。这样游戏世界中的每一个行为都有可能会实时影响到游戏中的角色属性设定。于是,大数据时代的结果影响的是“现在”。
也不知道为什么突然写这个,好像哪怕想通了意义也不是很大的样子。希望接下来能够好好研究出一套建立用户画像的方法吧。