文|乡野山人左大瑞
今天下午开会讨论一个业务方的需求,我去旁听,领导提了一句“热数据”,当时心里一脸蒙蔽,数据还能有温度?
临下班的时候,整理今天的会议笔记,看到了打着问好的热数据,于是决定查一查到底是什么。
资料并不多,不过并不妨碍对他的初步认知,不是真正部署数据库,我觉得目前的了解够用了(大言不惭,若有高手看到,还请继续补充)
下面会从两个层面上来说:一个是数据的访问频次层面,一个是数据分析层面。
一,访问频次
从字面意思来简单的说,热数据就是访问的多,门庭若市,自带体温且有可能摩擦起热,你懂的,于是温度就起来了。冷数据就是基本上没什么客人来访,门庭冷落车马稀,没人气儿,空气里都冷了几分。
热数据:是需要被计算节点频繁访问的在线类数据。
冷数据:是对于离线类不经常访问的数据,比如企业备份数据、业务与操作日志数据、话单与统计数据。
两个不同的访问频次,就导致了在数据库搭建的各自不同,有一句话简单明了:
热数据就近计算,冷数据集中存储
所以,热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据访问频次低,效率要求慢,可以做集中化部署,而基于大规模存储池里,可以对数据进行压缩、去重等降低成本的方法。
由此看来,数据基于访问频次部署的好的话还能给公司节省服务器,这就造福了多少因为服务器夭折的项目。
二,数据分析层面
这两年,互联网公司开始打数据的旗号增加公司价值和估值,比如我上家公司,是一个传统体检行业下的互联网子公司,是希望把做体检积累了很多年的数据进行分析,做健康管理和大病预测。以为这个海量数据,真的是吸引了很多高才能人事,也是我和科学家们打交道最多的一份工作,有医学博士、数据科学家、图像处理穿甲、返聘的主任医师。
但是但是,在建立数据模型的时候发现,这些数据只是刚刚起步,还处于数据清洗的阶段,甚至有些数据,还不能很好的指标化,文字化。
所以,就算打着大数据的旗号,也无奈的没能做出数据分析的事情,所以在生产数据的时候,做好数据部署和数据分析的准备,提前做好字段拆分,埋点部署……
从数据分析的层面来看,不仅有冷热两种数据,还有温数据,而提出这个概念的是个灯,个灯是这么介绍的:
个灯独有的数据技术引擎:冷数据、温数据和热数据。冷数据——性别、兴趣、常住地、职业、年龄等数据画像,表征“这是什么样的人”;温数据——近期活跃应用、近期去过的地方等具有一定时效性的行为数据,表征“最近对什么感兴趣”;热数据——当前地点、打开的应用等场景化明显的、稍纵即逝的营销机会,表征“正在哪里干什么”。
它基于这三个不同温度的数据,打造了个灯的三条业务线,志在打造个灯广告产品生态圈,多多赚钱。
个灯将其说成是数据技术引擎,对于我来说,这个的层面更像是数据的分析和应用层面,上面的第一点说的是打地基,而第二点更像是盖楼还是盖房。
不管是哪个层面的,当数据动起来的时候,才会产生价值,而数据的价值,就像是一座有无数宝藏的矿山,挖矿的人对于数据的洞察力、提取力和分析力决定了他能挖出钻石还是煤炭。
互联网发展的太快,快到政府意识到的时候,都有点儿跟不上节奏了,所以现在海量的数据在各个公司下,没有有效且有力的监管。总有一天,数据全权开放给政府,数据共享,到了那一天,数据将比自己更了解我们。而那个时候,是不是就像《未来简史》里说的,我们都有一个比我们自己更懂自己的机器人管家,想想其实有点儿小恐怖,毕竟我心里有一些小秘密,没有告诉任何人。
文中对于冷热数据的人士上若有不对观点,请随时指正,多谢!