简要概括:
以大数据处理技术为平台,介绍涵盖数据采集、 数据处理、数据分析等全过程的大数据处理知识。
课程内容:
数据采集、大数据组织与管理、大数据处理技术、大数据分析、数据安全、数据可视化、大数据应用等。
一、大数据时代背景
工业时代的变革历程:
第一次工业革命 17-18世纪 蒸汽机的发明和使用 蒸汽时代
第二次工业革命 19-20世纪初 电力应用及流水线作业 电气时代
第三次工业革命 20世纪 半导体、计算机软硬件 信息化时代
第四次工业革命 21世纪以来 互联网、云计算、分布式 大数据时代
信息技术社会从IT到DT到IOT的转变
经过40年来的快速发展,信息技术社会的演进经历了五大形态
IT信息时代
上世纪80年代,PC的快速普及,信息化成为时代主题
互联网时代
上世纪90年代,通信技术和互联网技术迅猛发展,互联网信息共享成为时代主题
移动互联网时代
21世纪前十年,随着智能手机爆发,信息个性化出现,互联网 + 成为时代主题
大数据时代
纽 约 时 报2012专栏:大数据时代已经降临,决策将日益基于数据和分析而作AI时代
AI时代
2010年后,AI时代来临。它是互联网诞生以来第二次技术社会形态在全球的萌芽
目前大数据技术已对国民经济起重要支柱作用
仅狭义大数据产值口径:专门用于大数据的软件、硬件及服务,300亿美元
大数据应用于各个行业,产生的外部价值受到各国重视,属于世界各国激烈竞争的领域
各国政府纷纷推出大数据战略
各国从推进数据开放、支持技术创新、打造协作环境等方面多措并举,促进大数据快速发展
我国大数据发展战略
重大战略:云计算与大数据重点专项、政务信息系统整合共享、人工智能重大工程、大数据重大工程
大数据产业的快速发展对人才培养提出了新需求
2018年度中国ICT人才生态白皮书发布:
2017年ICT领域人才需求缺口为765万,2020年ICT领域人才需求缺口预计为1246万
2017年大数据市场规模为234亿,2020年达到578亿,2017年大数据领域人才需求缺口126万,2020年257万人
2017年云计算市场规模为1427亿,2020年达到2525亿,2017年云计算领域人才需求缺口108万,2020年210万人
二、大数据价值
大数据价值—实例1
玩转“大数据”,让林彪成为常胜将军
林彪每天收集大量细节数据:每天深夜听取战况汇报,每支部队歼敌多少、俘虏多少;缴获的火炮多少、车辆多少、枪支多少、物资多少......
从数据中提取出有价值的“信息”:
锦州战役:围城打援
胡家窝棚:打援
“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”
“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”
“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”
直捣敌军指挥部:
俘获廖耀湘
大数据价值—实例2
滴滴网约车大数据
信号灯控制系统优化、汽车导航等智慧交通
通过网约车获取交通数据
建立网约车交通模型
建立整个城市范围内的交通模型
大数据价值—实例3
工业大数据
对于控制机理不清晰或者根本就不存在这样的控制机理的复杂情况下,模型驱动控制就无法实现,而基于大数据的数据驱动控制方法成为唯一可行的解决之道。
大数据价值—实例4
钢铁大数据
钢铁企业的大规模生产与大批量个性化客户订购之间的矛盾
大宗矿石原料采购深受原材料价格剧烈波动的影响
高端产品性能的稳定性:流程之间、层级之间物质流、能量流、信息流严重脱节
基于大数据的商业模式和基于大数据的全流程优化控制是解决这些矛盾的可行之道
更多实例
可以参考《大数据时代》一书
此书中对大数据技术应用的例子更多,也进行了更详细的分析和解释。此书对大数据思维有一定的启发作用。
在这个信息爆炸的时代,大数据给人类社会的方方面面带来了巨大的变革,这是社会发展的潮流,不可逆转,我们只有顺应这种潮流,把握住大数据时代变革的思想,才能在时代潮流中成为佼佼者,在思维上思路_上略高一-筹,才能在行动中占得先机!
三、大数据基本概念若干
大数据定义
大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(Massive Data)、“超大规模数据”(Very Large Data)等概念之间有何区别。针对大数据,目前存在多种不同的理解和定义。
麦肯锡在其报告《Big data: The next frontier for innovation, competition and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。
维基百科对“大数据”的解读是:“大数据”(Big Data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
百度百科对“大数据”的定义为:“大数据”(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的资讯。
研究机构Gartner认为,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了哪些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
按照美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)发布的研究报告的定义,大数据是用来描述在我们网络的、数字的、遍布传感器的、信息驱动的、世界中呈现出的数据泛滥的常用词语。大量数据资源为解决以前不可能解决的问题带来了可能性。
大数据是一个宽泛的概念,每个人的见解都不一样。在综合各家观点的基础上,给出了本书的定义:“大数据”是在体量和类别特别大的杂乱数据集中,深度挖掘分析取得有价值信息的能力。大数据不仅仅在于数量的大,“大”只不过是信息技术不断发展所产生的海量数据的表象而已。我们更加关注“数据”的深度分析和应用,对于数据有价值的深度挖掘分析和在新形势下的数据应用是我们需要探讨的重点。
大数据代表着数据从量到质的变化过程,代表着数据作为一种资源在经济与社会实践中扮演越来越重要的角色,相关的技术、产业、应用、政策等环境会与之互相影响、互为促进。从技术角度来看,这种数据规模质变后带来新的问题,即数据从静态变为动态,从简单的多维度变成巨量维度,而且其种类日益丰富,超出当前分析方法与技术能够处理的范畴。这些数据的采集、分析、处理、存储和展现都涉及复杂的多模态高维计算过程,涉及异构媒体的统一语义描述、数据模型、大容量存储的建设,涉及多维度数据的特征关联与模拟展现。然而,大数据发展的最终目标还是挖掘其应用价值,没有价值或者没有发现其价值的大数据从某种意义上讲是一种冗余和负担。
大数据特征——4V
大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。
(1)规模性
随着信息化技术的高速发展,数据开始爆发性增长。大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。
(2)多样性
多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。
①数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。
而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大体可以分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。
②数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中有70%-85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。
③数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。
(3)高速性
这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。
(4)价值性
尽管企业拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。
大数据处理过程
数据获取与数据管理
领域科学问题一:大数据资源管理与公共政策
数据存储与数据处理
领域科学问题二:大数据基础设施和处理平台
数据分析与数据理解
领域科学问题三:大数据分析处理和建模调参
结合具体领域的大数据应用
领域科学问题四:结合领域的大数据应用
多学科交叉
大数据不是某一领域的专项问题,而是多学科综合性问题
大数据处理系统与框架
主要通过处理方式区分为:批处理框架、流处理框架、批流混合处理框架
大数据思维
图灵奖得主,关系型数据库的鼻祖Jim Gray(吉姆-格雷)在2007年加州山景城召开的NRC-CSTB大会上,发表了生前的最后一次演讲“The Fourth Paradigm: Data-Intensive Scientific Discovery”,提出了科学研究的第四类范式,其中的“数据密集型”就是现在我们熟知的“大数据”。
几千年前,是经验科学,主要用来描述自然现象
几百年前,是理论科学,使用模型或归纳法进行科学研究
几十年前,是计算科学,主要模拟复杂的现象
2007年后,是数据探索,统一于理论、实验和模拟。它的主要特征是:数据依靠信息设备收集或模拟产生,依靠软件处理,用计算机进行存储,使用专用的数据管理和统计软件进行分析。
第一范式——思维实验、科学归纳
第二范式——逻辑思维、模型推演
第三范式——计算思维、仿真模拟
第四范式——数据思维、关联分析
参考:
[1]http://baijiahao.baidu.com/s?id=1664232735603215493&wfr=spider&for=pc
[2]https://www.jianshu.com/p/f2cee7adeed9
[3]王国仁 、金福生 、李荣华 、袁汉宁 、张美慧 、袁野 、车海莺 《大数据技术导论》
只是挪过来,因为很讨厌知乎的审核机制、垃圾的推荐算法以及过度杂糅且毫无用户体验的功能