“大数据”视角,并非近年来的新事物,回顾历史,早已有之。只是当时,“大数据”这个词,尚未产生。
“量化”的应用领域,随着时光的流逝,加速扩张
19世纪,“量化”之于航海。19世纪还是航海经验靠口口相传、有些甚至被证明是错误的年代,航海家莫里通过量化分析制作的导航图,是大数据的最早实践之一。在因为马车事故造成腿部残疾后,年轻的海军军官莫里离开了海上工作,来到了图表和仪器厂。在这个后来被证明是他福地的地方,在翻阅、整理库房里存放的航海书籍、地图、图表、航海日志后,莫里将这些记录进行数据整合,把整个大西洋按经纬度分成五块,并按月份标出温度、风速和风向,为找到更有效的航海路线提供参考。之后,为了提高精确度,莫里创建了一个标准的表格来记录航海数据,并在所有海军舰艇及部分商船上使用,通过分析这些数据,一些利于航行的天然航线被找到,为海军及商船减少了三分之一的航海路程。远在信息数字化之前,人工的数据运用已经充分展示了其实效。随着数据存储和处理能力的不断提高,“大数据”技术的运用领域也不断扩展。
20世纪,“量化”之于投资。在金融领域,“量化”这个词经常以“量化投资”等词组形式出现,指的是通过数量化方式及计算机程序化发出买卖指令,以获取稳定收益为目的的交易方式,其实质在于替代传统的定性分析,以数据为支撑作出投资决策。“量化投资”在海外的发展已有30多年的历史,其投资业绩稳定,市场规模和份额不断扩大,得到了越来越多投资者认可。金融领域是数据相对集中和易感知的领域,但量化的舞台,远不止于此。
21世纪,“量化”之于坐姿研究。日本先进工业技术研究所的越水重臣教授将量化用于坐姿研究,通过对人坐着时的身形、姿势和重量分布等的数据化,产生独属于每个乘坐者的精确数据资料,并根据人体对座位的压力差异识别出乘坐者身份,准确率达到98%。这项技术可作为汽车防盗系统,通过这个系统,汽车可以识别驾驶者是否为车主并设置相应安全措施。数据的提取,只有你想不到,没有提取不到,关键在于如何提取、如何利用。
“量化一切”,即“数据化一切”
数据化,不是数字化。前者,是指把现象转变为可制表分析的量化形式的过程;后者,指的是把模拟数据转换成用0和1表示的二进制码。在数字化时代来临之时,在脑海中对这两个概念有清晰概念十分重要。数据化的关注重点是在“I(信息)”上,而数字化则关注“T(技术)”。数字化的发展,提高了数据化的可行性。
“数据化”文字。谷歌的数字图书馆,是文字数据化的典范。通过文字的数据化,人可以用之阅读,机器也可以用之分析。谷歌运用这些数据化了的文本来改进它的机器翻译服务,从几年前相当于高中水平的翻译水准,到如今的令人惊叹,着实超越了英语水平不断退化的某笔者(容某笔者先找个地儿蹲着哭一会儿)。
“数据化”方位。手机的广泛运用,让人的实时位置信息也可以被数据化,位置信息的数据化,催生了许多新价值。比如无线数据科技公司Jana的创始人伊格尔,他使用了来100多个国家的超过200个无线运营商的手机数据,既关注家庭主妇平均每周去几次洗衣店,也试图回答关于疾病如何传播等问题。新的用途不断产生,既可以用于商业,也可以用于社会研究。
“数据化”沟通。个人化是数据化的前沿,facebook将关系数据化,twitter将情绪数据化,linkedin将个人经历数据化,这些社交网络平台,以各种方式将个人及其沟通数据化,并存储了海量的用户数据。初步的运用,例如Derwent Capital对冲基金对微博数据文本的分析,获得了股市投资的信号,虽然由于隐私问题,数据的使用还远未成熟,但我们不难想象,当数据被充分运用,世间万物是否已不再是世间万物,而是海量的数据呢?
当看到一切皆可量化这句话,还是持一定的保留态度。因为,太过绝对。但似乎,这只是一种理念的传递,为了表达数据化的重要性而已。大数据视角,提供了看世界的另外一个角度,但绝不是唯一视角。