信息是关于世界、人和事的描述,它比数据来得抽象。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。对数据的信息进行处理后,人类就可以获得知识。
数据对我而言,记录可分析,存储可读取,实时掌握趋势。比如:
1950年,阿兰·图灵(Alan Turing)在《思想》(mind)杂志发表一篇题为《计算的机器和营销》的论文,提出了一种验证机器有无智能的判别方法:
- 语音识别
- 机器翻译
- 文本的自动摘要或者写作
- 战胜人类的国际象棋冠军
- 自动回答问题
计算机科学家们认为,如果计算机试下以上五件事中的一种,就可以认为它有图灵所说的那种智能。2016年3月15日,AlphaGo 以总比分 4:1 战胜李世石,机器从而进入全面的「智能时代」。
当今的IT领域中,越来越多的问题可以用「数据驱动方法」来解决,用计算量和数据量来换取研究的时间。1994年到2004年的10年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中20%左右的贡献来自方法的改进,80%则来自数据量的提升。
1. 数据之间的相关性,在某种程度上可以取代原来的因果关系。
大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。
若按照因果关系,研制一种新药,需要20年的时间,投入20亿美元。若通过大数据的相关性,研制新药只需要花费3年时间,投入1亿美元。然而一名专科医生平均需要花费13年之久,投入50~70万美元。一名医生医生阅读研究的病例,很难超过10万个,然而计算机则很容易从上百万钟病例中学习。
2. 比尔要拿走安迪所给的(What Andy gives, Bill takes away.)—安迪-比尔定律
在计算机领域,软件功能的增加和改进,要不断地吃掉硬件性能的提升。自从1965年摩尔博士提出了摩尔定律,计算机处理器和存储器的性能分别提高了2000万倍和10亿倍。所以,才能够让大伙买买买 :-)
3. 香农第二定律,信息的传播速率不可能超过信道的容量。
十年前的第二代移动通信系统 GSM(全球移动通信系统),数据传输速率只有不超过 100KB/s,如今的第四代移动通信系统 LTE(通用移动通信技术的长期演进),数据传输速率达到 2MB/s~10MB/s,平均每年增长率超过 50%
因此,人类接受信息量也跟着成倍增加。
4. 大数据的第一个来源是电脑本身,大数据的第二个来源是传感器,大数据的第三个来源是将那些过去已经存在的、以非数字化形式存储的信息数字化。
大数据对体育训练的帮助还在于分析和总结优秀选手的动作姿势,纠正其他运动员的动作。世界万物是运动的,而且这些运动遵循着确定性的规律,这些规律又是可以被认识的。
穿戴设备含有传感器,收集健康数据。而医疗文档的数字化,也意味着「医疗改革」正在进行。
5. 这是最好的时代,也是最坏的时代。——《双城记》
从公元元年到18世纪工业革命之前,世界人均财富是没有提高的。英国人花了大约两代人的时间来消化工业革命带来的负面影响。每次重大的技术革命,至少要花半个世纪来消除它所带来的负面影响。然而,信息革命依然没有消化完,智能革命又开始了,此次的冲击力度是「双重叠加」的。
大数据导致机器革命的到来,这对未来社会的影响不仅仅在于经济领域,而是全方位的。要么进入前2%的行列,要么被淘汰。
或许,您也需要个梯子看看外面的世界.