在当下这个社会,数据的应用越来越广,数据也被誉为第三次工业革命的原材料。所以本书回答的问题就是为什么数据是第三次工业革命的原材料?数据到底有哪些作用?
本书的结构比较简单,中间给了非常多的案例。下面是本书的结构图。
首先是原材料,我们要去获取数据,并且得有地方存。随机科技的发展,这一块进步非常明显。
接下来要解决数据到底怎么用的问题。作者分成2个视角进行解析。并且有一些有趣的案例。
第一个视角是数据自身的分析。分成统计,关联,预测3个部分。
统计中的案例:比如统计电影的票房可以看出哪些电影比较受人欢迎。比如统计微博的热搜可以看出最近人们关注的话题热点。
关联中的案例:比如啤酒-尿布关联:沃尔玛通过对原始交易数据的分析,发现跟尿布一起购买最多的商品竟然是啤酒。比如教师最喜欢快速高效的洁面乳。
预测中的案例:未付款先发货的购物车点击购买预测,社交网络上的朋友推荐的链路预测。
第二个视角是数据的外在。分成别人对我有帮助的数据,和我对别人有帮助的数据。
别人对我有帮助的数据案例就是利用学生的除了成绩以外的其他数据预测未来学生的成绩。比如去图书馆次数越多,成绩越好。比如吃早饭次数越多,成绩越好。比如在寝室待的时间越长,成绩越差。学生的行为数据看似和成绩无关,研究发现还是有一些关联性。
我对别人有帮助的案例是谷歌利用自己的搜索引擎数据分析出了非典的传播速度和感染面积。淘宝利用自己的淘宝数据预测居民消费价格指数。
总结来说,从案例中我们察觉数据背后藏着非常多的信息,能产生大量的价值。这本书就是吸引我们关注大数据。但是他并没有讲我们普通人应该拥有怎样的大数据思维。
另外本书认为事物特征之间的关联关系要优于因果关系。我认为在特定的空间和时间之下是成立的。比如啤酒-尿片关联关系。在美国是成立的,在中国可能就不成立了。所以相对来说关联关系的复制性和移植性要差一些。