前言:
大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
作者:
维克托.迈尔-舍恩伯格(ViktorMayer-Schönberger)
奥地利作家
数据科学家
被誉为“大数据时代的预言家”,也是最受人尊敬的权威发言人之一。
担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。
代表作: 《大数据时代》《删除》
大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发.....
《大数据时代》:
维克托·迈尔·舍恩伯格在书中前瞻性地指出,世界的本质就是数据,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。大时代大变革;
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。因果关系和相关关系;
《删除》:
维克托的继父去世时留下了16000张收藏的照片,这些照片都是他继父几十年周游世界时的影像记录。为了确定哪些照片需要保留,维克托制定了两条规则,最终,他只留下了53张照片。。。
这本书讲述了遗忘的美德,为读者展现了大数据时代的取舍之道。删除,大数据取舍之道,就是把有意义的留下来,把无意义的去掉。只有理解了在大数据中,需要的是什么,以及如何判断这种需要,才能举一反三地明白到底为什么要去掉那些不需要的。
对于人类而言,遗忘一直是常态,而记忆才是例外。然而,由于数字技术与全球网络的发展,这种平衡已经被打破了。如今,过去正像刺青一样被刻在我们的数字皮肤上,遗忘已经变成了例外,而记忆却成了常态……
大数据的概念:
1. 数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。
2. 要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高要求,所以数据量显得对速度要求有些“大”。
3. 数据多样性:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。
4. 价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,
但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。
5.大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的
理论:
1. 世界的本质就是数据,所有一切都可以用数据量化.大数据将开启一次重大的时代转型;
2. 大数据发展的核心动力来源于人类测量,记录和分析世界的渴望;导航
3.从因果关系到相关关系的转变才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心(只需要知道是什么,不需要关注为什么)
第一章大数据,开启重大的时代转型
1. 硅谷臭名昭 著的技术成熟度曲线(TheHype Cycle)
Technology Trigger(技术触发点)。一项潜在技术的突破开始崭露头角。早期概念型的故事和媒体的关注引发了公众极大的兴趣。往往尚无可用的产品,其商业可行性也还未经证实。
· Peak of Inflated Expectations(过高期望的峰值)。早期公众的过分关注演绎出了一系列成功的故事——当然同时也有众多失败的例子。对于失败,有些公司采取了补救措施,而大部分却无动于衷。
· Trough of Disillusionment(理想破灭的低谷)。实验和部署失败,公众的兴趣减弱。技术生产者自动出局或是以失败告终。幸存的供应商只有通过改进产品使早期的采用者满意,才能继续获得投资。
· Slope of Enlightenment(斜坡启蒙)。多个企业已经明显从该技术中获益,这些实例也开始广为人知。技术供应商开始推出第二代和第三代产品。更多的企业投资试用,保守型企业仍持谨慎态度。
· Plateau of Productivity(生产力平稳期)。主流应用开始快速发展。评估供应商生存能力的指标更加明确。该技术广泛的市场适用性和针对性开始初显成效
2.大数据的内容
1.预测,大数据的核心
大数据的核心就是预测。它是把数学算法运用到海量的数据上来预测事情发生的可能性。许多依靠人类判断力的领域都会被计算机系统所改变甚至取代
;我们不再是,我觉得应该怎么样,因此可以怎么样;而是数据告诉我们怎么样,支持我们做出什么样的选择;(问题:一直延续旧的习惯,是否与创新背道而驰)
2. 大数据,大转变
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。与局限在小数据范围相比,使用一切数据为
我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节——大数据让我们更清楚
地看到了样本无法揭示的细节信息。
初中题: 10个牧场一万头牛
第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。随着规模的扩大,对精确度的痴迷将减弱。工具的限制》杂货店-GDP
3.因果与相关
第三个转变因前两个转变而促成, 即我们不再热衷于寻找因果关系,而在乎其相关关系。
因果关系:原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用,缘之串联而引起的现象。
相关关系:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。
不需要关注为什么,只需要关注是什么,正在发生什么;相关关系也许不能准确
地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种
提醒的帮助已经足够大了 (问题:
认知因果关系的价值是什么,寻找因果关系是人类长久以来的习惯)
4.专家的消亡与数据科学家的崛起
n同样地,人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据做出的最大贡献之一。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音.汇集起来的数据所显示的实际信息,有着更加牢靠的根基.
5. 数据时代的隐忧
我们时刻都暴露在“第三只眼”之下:阿里巴巴,京东监视着我们的购物习惯,谷歌,百度监视着我们的网页浏览习惯,而微博,朋友圈似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网,一台节能灯也可能知道我们的作息习惯
进行大数据分析的人可以轻松地看到大数据的价值潜力,这极大地刺激着他们进一步采集,存储,循环利用我们个人数据的野心。
大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时,它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。随着越南战争升级和美军加派部队,这变成了一场意志之战而非领土之争。美军的策略是逼迫越共走上谈判桌。于是,评判战争进度的方法就是看对方的死亡人数。每天报纸都会公布死亡人数。支持战争的人把这作为战争胜利的标志,反战的人把它作为道德沦丧的证据。
6.掌控:责任与自由并举的信息管理
管理规范的变革。重新定义公正的概念,确保人类的自由。
个人隐私保护,从个人许可到数据使用者承担责任
可反驳原则。防止“数据独裁”
反垄断