【原书信息】
书名:《数据之巅:大数据革命,历史、现实与未来》
作者:涂子沛
出版日期:2014年5月
ISBN:9787508644660
【全书结构框架】
1.小数据时代:数据最初应用
(1)数据的产生
(2)数据的应用
(3)数据背后的价值
2.小数据时代:数据应用的升级
(1)数据采集的颗粒度细化
(2)数据分析的专业化
(3)数据逐步积累的作用
3.小数据时代:数据的爆发
(1)数据驱动技术创新
(2)数据应用出现的隐私、安全问题
(3)数据量化、抽样技术的发展
4.大数据时代:大数据的崛起
(1)大数据的成因
(2)数据开放
5.大数据时代:大数据发展的未来
(1)普适计算
(2)数据之巅:智能社会的挑战
第一章 小数据时代:数据最初应用
【导言】:说到数据,现在大家的脑海中第一时间浮现的可能是股票数据、工资、房价等等,那数据最初进入到人们生活中,并对社会产生影响的方式是什么?或者说数据最初发挥了什么样的作用?我们追溯历史,发现数据最初产生的时代,数据最早的应用是服务与政治,并因此数据而不断地被统计应用,同时伴随应用需求,数据背后的隐含的价值也日益凸显。以美国的历史发展过程为例,通过利用人口普查数据开展参众议院的席位分配,达到民主共和的目的,可以认为数据分权是美国历史上第一个最初的数据应用场景,以此为基础数据的发展促进形成了美国的数据文化,同时也暴露了数据无法完美实现绝对公平的问题。
1.数据产生
我们可以清楚的发现,所有数据能发挥作用,前提条件是必须先得产生数据,也就是要把分散的信息转换形成数据并记录下来,这就是最早的数据统计的概念,也是数据产生的形式,同时也是信息转换为数据的最初形式,这个过程让数据以某种方式形成记录,并将记录保存下来,为后续数据的应用奠定了基础。在美国建国时把人口普查写进了宪法,相关的数据的产生也是由人口普查统计人口数量而产生。
2.数据的应用
在统计形成数据后,如何应用这些数据,在美国历史中,最初是通过人口普查的方式完成了国家人口的数据统一记录汇聚,这些数据提交给政府领导人,通过这些数据来划分各州的政治权力席位,这就是最初的数据应用,这些数据的应用我们可以认为是利用数据最原始的价值,就是根据数据的简单计算,并依据计算结果进行判断、辅助决策。
3.数据背后的价值
在不断使用这些数据统计的过程中,促使相应的人们在不知不觉中养成了数据计算的思维,形成了数据文化,我们可以认为这好比个人通过暗时间提升自己,逻辑上是相通的,这种数据文化为一个国家或者民族的发展和进步也将发挥莫大的作用,例如19世纪30年代的美国通过大力普及推广数学教育、简化日常计算等,形成了美国的数据文化,为美国后续的发展奠定了基础。
所以,数据的应用肯定是加速了社会的发展和人类的进步,在人类远古祖先公元前3200年前发明楔形文字开始,通过各种方式记录信息,一直到记录的信息转为数据的概念,最后通过对数据的统计计算,产生不可预知的价值,这就是现代社会对于数据最初的应用。
第二章 小数据时代:数据应用的升级
【导言】在美国80年的人口普查数据的最初应用后,随着人们在不断的政治权力斗争、社会经济发展过程中需要,对于数据的需求也越来越多,数据的采集记录从最初的单一维度的数量统计,逐步增加形成为多个维度的数据统计,如美国1830年的人口普查增加统计每个家庭的残疾人数量,1840年增加统计文盲、白痴等人口数量,对数据的分析及处理也变得更加地专业化,同时对于数据积累所产生的价值更加凸显,数据的应用也从最初的数据分权发展到通过数据进行辩论、辅助战争等,如在美国历史上数据解放了黑奴。
1.数据采集的颗粒度细化
最初美国通过人口普查数据实现分权,当时的人口普查数据只是按地区按户统计了人口的数量,说白了就是记录了每个家庭共有多少个人,只是简单的粗放的统计,随着美国的国家发展、内部政治斗争等因素需求,对数据统计的颗粒度提出了更加精细的要求,例如从最初的只统计“人数”,到统计文盲、白痴、精神病患者数量,以及统计教师、学生、雇员数量和牲畜数量等,也就是从早期的单一维度的统计人数,提升为多维的统计,可想而知,可想而知,单一维度的的数据分析所得到的结果,肯定没有多维度数据分析所得到的结果那么准确,同样对于人们决策辅助的效果也相对要小一点,这是数据统计或者说采集的颗粒度的变化,为后续数据提供更高的价值奠定了基础。
2.数据分析的专业化
在80年代,当时没有通讯电话、计算机、打印机等科技的情况下,随着数据统计的颗粒度的细化,对于数据收集的问卷设计、入户调查采集到汇总分析上百万的纸质数据卡片,对于数据的分析是一个极大的挑战,在这种情况下催生出了数据统计的职业人员,当时在美国成立相应的统计机构叫美国统计协会。这些统计的从业人员从一定程度上为当时的数据的统计和分析提供了更进一步的支撑力量,从数据统计方式上会形成更加专业的调研统计问卷,从数据处理和分析上比以往将提高效率和准确性。
3.数据逐步积累的作用
在美国内战时代,数据是奴隶制终结的灯塔,在这其中从美国南北战争前的数据辩论,到南北战争期间美国谢尔曼利用数据实现从北方到南方的远征战争的胜利,到最后的黑奴的自由解放,这些都是基于美国长期以来积累的数据基础,形成了丰富的数据资源,为后续的战争或者相关政治决策提供了及时准确的决策支撑,由此可以发现数据积累对于一个国家或某个的领域的后续应用起着巨大的作用。
第三章 小数据时代:数据的爆发
【导言】随着人类社会不断发展,人口数量不断增长,人口普查统计产生的数据也越来越庞大,数据统计的维度从一开始的单一维度、单一问题,变成多维度、多层次的问题的数据统计,这无疑进一步提升了数据的规模爆发式的增长,在这种情况下,为了更好地处理分析这些数据,促使在信息技术上进行创新突破,同时,在数据不断地应用过程也出现了相应的数据安全、数据隐私等问题,在数据进一步应用发展中,产生了量化机制、抽样机制等数据统计的新方法,接下来我们详细了解下数据爆发式增长背后的技术创新及应用。
1.数据驱动技术创新
从1880年开始,美国人口普查统计扩展为5个部分:人口普查、出生死亡率普查、农业普查、社会普查、工业普查,同时随着人口增长和统计问题的增加,产生的统计数据也呈几何方式增长,美国当时分析1880的人口数据用了整整8年才完成,可想而知这种效率是极其低下的,为了解决这种效率问题,当时的美国人提出了几种方式,比如缩小普查范围、增加数据分析处理人员或进行技术创新,前2种方式基本不可行,最后只能是采取技术创新的方式,随后霍尔瑞斯发明了打孔卡片制表机,将所有信息都转为有孔和没孔两种状态存储在卡片上,然后通过机器读取统计,提高统计速度,再后来沃森发明了人类第一台电子计算机等,这些技术大大提高了数据统计分析的效率,使得庞大的数据统计分析得以快速实现分析处理。
2.数据应用出现的隐私、安全问题
在美国人口普查统计数据分析结果会公开发布,因此而出现了商业或个人隐私的泄露,例如公开某地的棉花产量,在某个小地方如果只有2-3台扎棉机,则意味着各扎棉机机主可能推算出其他扎棉机的产量,这相当于变相的商业机密泄露。这些数据隐私问题的出现,促使美国在后续数据发展中,建立起了很完整的数据隐私保护的体系,美国第27任总统塔夫脱(William Howard Taft)首次为人口普查发表了专门的总统声明,向大众公开保证政府不会滥用普查的信息和数据,可以看出美国在数据应用中对于数据隐私保护的意识逐步成熟和完善。同样在数据逐步在提供政府、商业进行决策时,也出现了数据提前泄密的情况,当时美国罗斯福总统最终立法,将公务员提前泄露相关数据的行为定位刑事犯罪,由此可以想到数据安全的保护也是数据应用过程中重要的环节,而且当今社会越来越重要。
3.数据量化、抽样技术的发展
随着统计数据的不断扩展,对于数据统计分析的工作复杂性和准确性也逐步出现相关的问题,在数据统计新的革命发展中,出现了两种技术:量化和抽样,进一步推动了数据在各领域的应用。什么是量化?量化是把一切有形或无形的东西通过数据明确下来,最有名的量化方法是“成本收益分析”,成本收益分析是指以货币为单位,对一个项目投建的成本和未来的收益进行量化,找到拥有最佳收益与成本比率的项目或方案,量化最初起源于水利工程,后面发展至对应生命的量化:给生命定价。同时,抽样技术的出现简化了统计的工作量,提升了对相关数据统计工作质量的监督提升,通过抽样技术实现对数据的快速调研采集,并得出准确的结论,在美国最经典的抽样技术应用案例,是小说《飘》改编的电影《乱世佳人》的放映票房的预测,这里是通过提前设计相关抽样调查问卷,通过数据统计,针对性地设计了电影海报、确定电影时长、放映时间段和场次等等,最终取得有史以来的最高电影票房。
第四章 大数据时代:大数据的崛起
【导言】我们所知道的,随着电子计算机的发明,以及相关数据存储和计算技术的不断发展,人们对于数据的存储和使用方式也不断在发生改变,对于数据的定义也从原来的“数字”的概念,逐步转变为信息即数据,也就是一段录音、一张照片等这些都是数据,并且数据保存成本和分享成本越来越低,基于数据这些在线的特点,形成了大数据,并引发了数据开放共享的潮流。
1. 大数据的成因
进入信息时代后,数据的涵义开始扩大,传统意义上的数据、信息和知识三者的关系,数据是信息的载体,信息是有背景的数据,只是是呈现规律的信息,怎么理解这三者的关系,举个例子:“28”是个数据,“今天气温是28℃”这是一条信息,“今年7月,广州的平均气温为28℃”这是知识。大数据可以理解为传统的小数据加上现代的大数据记录,随着数据存储硬件的发展,摩尔定律的提出,晶体管的体积越来越小,存储器的成本越来越低,对于数据存储量越来越大,这导致人们有能力存储更加海量的数据,总结起来就是人类保存数据的能力增强、人类生产数据的能力增强、人类使用数据的能力增强,从而导致了大数据的产生。
2.数据开放
(1)数据开放的形式。那什么样才算是数据开放,数据开放可以分为内部开放和外部开放,内部开放简单理解就是属于自己范围内的人员开放,外部开放就是在这范围之外的开放,比如按国家来划分,只针对本国人员进行的开放就是内部开放。那数据开放最早的承载形式,以美国为例,最早的数据开放来源于民间对政治的知情权的争取发展而来,就是人民有权知道政府的运作情况,如政府财政支出等。我们再来看一下数据开放的目的,在美国从最初的数据开放式为了提供人民对于政府的知情权(称之为美国数据内开放1.0时代),然后发展到通过数据开放制衡企业为政府提供有利的管理手段(称之为美国数据内开放2.0时代),最后通过数据开放服务经济发展、创造就业机会等,实现数据开放驱动创新(称之为美国数据内开放的3.0时代)。
(2)数据开放的价值。结合前面讲的数据开放的3个目的,我们可以很推断出数据开放后产生的巨大价值,首先对于数据开放承载知情权这方面,我们知道,首先在政府数据未开放之前,人民对于政府的运作完全就是黑匣子,对于政府的信任度也是很低,通过数据开放一方面提升了政府的政务公开性,让人民提升了对政府的信任度,另一方面通过数据开放也形成了无形的监管机制,使得政府官员更加自律;另外,我再来看一个历史事件,美国2011年的“9.11”事件,当时事情发生的时候,美国总统布什及政府官员想要第一时间知道当时在世贸中心的人员有多少?就是这么简单的一个数字,当时是无法及时统计出来,这是为什么?是因为各个部门之间的数据开放合作障碍导致数据未开放整合。由此可以看出数据开放整合对于国家、社会的巨大意义,所以后来美国启动了LEHD(工作单位和家庭住址的纵向动态系统)项目,构建了OnTheMap系统,实现把国家人口普查数据和全国公司的数据联动起来,并开放给全社会使用。
第五章 大数据时代:大数据发展的未来
【导言】随着数据从产生、最初应用、数据的不断应用和价值的挖掘,数据最终的发展会带给人类什么样的变化?大数据的应用,将会不断从数据中发现事物规律,帮助人类提高生产效率,促使社会向智能型的方向发展。
1.普适计算
伴随着大数据的产生,意味着人们拥有了更多的数据,那更多的数据也将产生更多的使用需求,而使用数据最根本的方法就是计算,那普适计算是什么?专业的说法把普适计算又叫普及计算、普存计算,普适计算的目的是建立一个充满计算和通信能力的环境,同时使这个环境与人们逐渐地融合在一起,使人们能够在任何时间、任何地点、以任何方式进行信息的获取与处理,大数据时代下无处不在的计算标志着一个计算社会的兴起。传统的计算自然以传统的“数字”为基础,对于大数据时代下的文本、视频、音频等这些数据也需要计算,这些新型的数据转换的过程,就是我们现在熟悉的搜索和挖掘。人类的计算分为物理环境计算、人和社会的计算,在大数据时代中,这两类计算领域都在不断地发展。
2.数据之巅:智能社会的挑战
有了数据之后,随着海量数据的存储,对于数据的计算分析需求也越来越多,数据计算的场景越来越多,数据计算的速度也越来越快,并伴随传感器、可穿戴设备等微小的计算设备的普及,加上3D打印、机器学习等技术出现,以及众包、众智、众创等创新模式的出现,将数据推向了应用的巅峰,数据的终极的应用形式是:用数据训练机器,使机器具备智能,为人类提供自动化的服务。那未来社会将是建立在数据之上的高度智能化的社会,未来的数据存储和计算还将不断突破,数据的计算能力将越来越强,对应数据的应用形式将更加智能化、人性化,满足人们的各类需求,就好像科幻电影中出现的各类场景,相信在下一个时代将会逐步实现。数据发展驱动社会智能化,目前最实际能落地的就是我们经常听到智慧城市的应用案例,打造智慧城市的三个要素是:市民参与、技术支持和政策配套,其中城市居民是智慧城市的服务主体,技术公司提供技术解决方案是实现智慧的重要技术支撑力量,政府作为城市的主要管理者是为建设智慧城市提供配套保障,如中国神州数码公司打造的未来城市公共服务平台,目前在佛山、张家港、纽约落地,智慧城市也从想象变成了现实。
当然对于数据驱动社会向智能化发展,给人类带来了便利和工作效率提升的同时,也将面临数据的隐私等问题。如何更好地运用数据达到一个平衡将是人类不断追求的目标。
下面我们来总结下全书的内容:
1.在小数据时代,数据最初产生于人口普查数据统计,最初的应用场景是服务于政治权力划分,如美国的数据分权等
2.在小数据时代,数据应用的形态随着应用需求的变化,从人口普查只统计人口数量这种单一的采集维度逐渐变成统计人口普查统计残疾人口数量、农业牲畜数量等多维度多问题的数据采集,导致数据的不断增长和数据基础的丰富。
3.通过数据计算的应用,在美国历史中这种计算思维深入到了每个人的日常生活中,这造就了美国的数据文化,为美国后续的发展奠定基础。
4.在小数据时代,随着数据的爆发,数据应用驱动了信息技术的创新,如第一台电子计算机的发明,提升了数据的计算、处理和分析的效率,加速了数据的发展。
5.人类保存数据的能力增强、人类生产数据的能力增强、人类使用数据的能力增强,从而导致了大数据的产生。
6.大数据时代的普适计算,是使人们能够在任何时间、任何地点、以任何方式进行信息的获取与处理,大数据时代下无处不在的计算标志着一个计算社会的兴起。
7.数据之巅即数据的终极的应用形式是:用数据训练机器,使机器具备智能,为人类提供自动化的服务。大数据的发展最终驱动社会向智能化发展。