我们的世界风起云涌,热闹非凡,从互联网-到移动互联网-到现在很火的物联网,从大数据-到云计算到目前的机器智能,AI等。
目前社会上的数据量快速增长,目前一天生成的数据量,已经超过了从有人类文明到2000年间的所有数据之和,随着物联网时代的到来,每天生成的数据还将出现指数型增长,我们将如何应对如此大规模的数据爆发式增长,我想这个是一个值得从业者深思的课题吧。
在数据量增长到TB时代,我们还可以勉强使用数据库进行统计、分析和存储等,oracle勉强可以胜任,db2和TD 可以较好的完成TB数据量级的任务。
在数据量增长到PB时代,我们或许可以使用MPP数据库勉强完成这项任务,MPP数据库在很多方面都有大的改进,使用列式存储等技术可以更高的查询效率,当然也有其他很多改进,就不在一一叙述了。目前也已经有地方都已经在推进传统BI迁移到MPP中了,当然也包括我们目前所在项目组。
在PB时代,还有很多互联网公司使用什么NoSql或者newSql 等各种技术,对这些没有深入研究,但是道理基本是想通。我想说的是那么了EB时代,我们传统BI使用什么那?据说谷歌已经在考虑使用什么GDD技术解决EB时代的数据处理了,但是当数据量到达ZB和YB时代怎么,可能更多人都没有好的办法。
也许我们可以不用杞人忧天,我们一个行业的数据量不会快速到达什么EB时代,是的,我也承认这个问题,作为个人我们可以不考虑这个,但是作为一个大数据人,我们可能就得考虑这样的前沿的技术难题吧。
身为一个传统行业的大数据人,我们面临的环境当然不可比拟目前一线的互联网公司,同时我们的数据可能更多结构化的,数据量的增长也是可以预见,但是我们就可以不居安思危去思考吗?我们应该如何做的更好,我们应该如何主动改变去适应未来,这个问题我将持续思考。