某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合体的分析体系的概念轴心。---苏珊·朗格 《哲学新视野》
最近看了一本书,讲述、理清了大数据的基本概念和特点。
书名:《大数据时代》
作者:维克托·迈尔-舍恩伯格,肯尼思·库克耶
翻译:周涛,盛杨燕
这本书提到的3点让我印象深刻,下面是我的一些思考。
一、因果关系与相关关系
以前我们所关注的大都以因果关系为主。用谷歌的‘数字图书馆’一搜可以发现causality(因果关系)这个词在1900年之前的使用频率比correlation(相关关系)高;而1900年之后,情况就与之相反。因果关系并没有相关关系容易解释得清楚,在思考上要找到因果关系有时也不是一件容易的事。就好比,一个人学习时间长,但是他的成绩并不一定就会比学习时间短的人高,因为这期间还有学习效率的问题。因此我们不能肯定学习时间长会导致成绩的提升,但是可以确定学习时长与成绩是呈正相关关系。
二、要效率而不要绝对精确
这一点我觉得不光是在数据分析上,生活、工作、学习上我觉得都是提倡的。因为有时候为了精确或者是完美多花的时间往往是比做得还不错高出很多倍,但是实际产生的意义并不一定很大。与其如此,倒不如把这多用的时间、精力花在其他事情上。
三、对于个人隐私保护的问题
数据化侧面导致了我们的隐私透明化。
虽然有很多政策来保护我们的隐私,但是目前的互联网公司做到的仅是告知与许可并非让我们真正掌控保护好自己的隐私。(因为如果我们不允许它们获取我们的信息,很多时候我们就访问不了这个软件或者是网站)
也许还有些人会觉得很多机构公司可以在后台把一些重要的隐私匿名化或者做一些脱敏处理。但由于数据的交叉重复,把处理过后的信息复原并不是一件很困难的事情。