黑客也像数据科学家一样对大数据进行分析,那么机密泄露的损失就大得难以估量。 —— 吴军
第五章 大数据和智能革命的技术挑战
技术的拐点
大数据的第一个来源是电脑本身,第二个来源是传感器,第三个来源是那些过去已经存在的、以非数字化形式存储的信息数字化。
数据收集:看似简单的难题
按照信息论的观点,要消除不确定性就需要信息,因此信息的收集非常关键。
在大数据时代,在收集数据时常常没有这样预先设定的目标,而是先把所有能够收集到的数据收集起来,经过分析后,能够得到什么结论就是什么结论。
大数据常常以全集作为样本集。
数据存储的压力和数据表示的难题
目前节约存储设备的技术体现在两个方面,第一类技术是存储同样的信息占用的空间小,第二类技术设计数据安全,即数据不丢失、不损坏,另外还要研究怎样存储信息才能便于使用。
大数据面临的另一个技术难题就是如何标准化数据格式。
并行计算和实时处理:并非增加机器那么简单
首先,任何一个问题总有一部分计算是无法并行的。
另一个影响并行计算效率的因素在于无法保证每个小任务的计算量是相同的。
数据挖掘:机器智能的关键
使用大数据的第一步是对数据的过滤和整理。
香农告诉我们,信息越多,我们就越能消除系统的不确定性。
信噪比 —— 信号噪声比,描述信号的质量。
我们常常需要进行降噪处理,损失一部分数据,以提高信噪比。
通常,由大量的数据、较少迭代训练出的“较粗糙”的模型,要比用少量的数据、深度的学习精耕细作得到的模型效果更好。
数据安全的技术
数据安全有两层含义,首先要保证用户的数据不损坏、不丢失,然后要保证数据不会被偷走或盗用。
从理论上讲,黑客也像数据科学家一样对大数据进行分析,那么机密泄露的损失就大得难以估量。
利用大数据分析来防范黑客攻击,要比传统的在防火墙设置各种规则的做法有效5倍。
保护隐私:靠大数据长期挣钱的必要条件
一类保护隐私的技术是从收集信息的一开始就对数据进行一些预处理。
另一类保护隐私的技术是所谓的双向监视。
也许你会喜欢: