带你深入浅出学习大数据:价值链之数据生成

今天继续带大家学习大数据。今天主要介绍大数据价值链的数据生成部分。希望大家持续学习,每天关注,我会连续更新文章,让大家系统学习和认识大数据。

阶段I:数据生成

本次主要分享大数据源的两个方面:大数据源的历史趋势和三种典型的数据源。

一、数据源

大数据生成的发展趋势可由数据产生速率来描述。随着技术的发展,数据产生速率也不断增长。事实上,IBM认为现在世界上90%的数据是近两年产生的。数据爆炸的原因被广为争论。Cisco认为数据的增长来自于视频、互联网和摄像头。由于数据实际上是能被计算机可读的信息抽象,信息通信技术(ICT)是使得信息可读并且产生或捕获数据的主要驱动力。因此本节首先从ICT技术的发展开始,以历史的观点解释数据爆炸的发展趋势。

数据生成的模式可分为3个顺序的阶段:

•阶段1:始于20世纪90年代。随着数字技术和数据库系统的广泛使用,许多企业组织的管理系统存储了大量的数据,如银行交易事务、购物中心记录和政府部门归档等。这些数据集是结构化的,并能通过基于数据库的存储管理系统进行分析。

•阶段2:则始于web系统的日益流行。以搜索引擎和电子商务为代表的web1。0系统在20世纪90年代末期产生了大量的半结构化和无结构的数据,包括网页数据和事务日志等。而自2000年初期以来,许多web2.0应用从在线社交网络(如论坛、博客、社交网站和社交媒体网站等)中产生了大量的用户创造内容。

•阶段3:因移动设备(如智能手机、平板电脑、传感器和基于传感器的互联网设备)的普及而引发。在不久的将来,以移动为中心的网络将产生高度移动、位置感知、以个人为中心和上下文相关的数据。

可以发现,数据生成模式是从阶段1的被动记录到阶段2的数据主动生成,再到阶段3的自动生成。除了用数据产生速率描述,大数据源还与数据产生领域相关。

这里主要对商业、网络和科学研究这三个领域进行大数据相关技术的调研。首先,大数据和商业活动联系紧密,许多大数据工具已经被开发并广泛使用;其次,大部分的数据是由互联网、移动网络和物联网产生的。再次,科学研究会产生大量的数据,高效的数据分析将帮助科学家们发现基本原理,促进科学发展。这三个领域在对大数据的处理方面具有不同的技术需求。

(1)商业数据

过去几十年中,信息技术和数字数据的使用对商业领域的繁荣发展起到了重要的推动作用。全球所有公司商业数据量每1。2年会翻番。互联网上的商业事务,包括B2B和B2C事务,每天有4500亿条。日益增长的商业数据需要使用高效的实时分析工具挖掘其价值。例如,Amazon每天要处理几百万的后端操作和来自第三方销售超过50万的查询请求。沃尔玛每小时要处理上百万的客户事务,这些事务被导入数据库,约有超过2.5PB的数据量。Akamai每天则需分析7500万事件,以更好地实现广告定位。

(2)网络数据

网络(互联网、移动网络和物联网)已经和人们的生活紧密联系在一起。网络应用如搜索、社交网络服务SNS、网站和点击流是典型的大数据源。这些数据源高速产生数据,需要先进的处理技术。例如,搜索引擎Google在2008年每天要处理20PB的数据;社交网络应用Facebook则每天需存储、访问和分析超过30PB的用户创造数据;Twitter每月会处理超过3200亿的搜索。在移动网络领域,2010年有40亿人持有手机,其中约12%的手机是智能手机。而在物联网领域,有超过3000万的联网传感器工作在运输、汽车、工业、公用事业和零售部门并产生数据。这些传感器每年仍将以超过30%的速率增长。

(3)科学研究数据

越来越多的科学应用正产生海量的数据集,若干学科的发展极度依赖于对这些海量数据的分析,这些学科主要包括:

光学观测和监控。在光学遥感和对地观测领域、基于光学等设备的视频监控领域等,往往需要获取连续大量的数据。这些几乎造成管理和处理灾难的数据有一定的周期性,而用户关心的又往往是其中的差异和异常的部分。考虑到这类数据的分析和学习过程往往又同获取这些数据时的装置和参数密切相关,再加上视觉信息对人类的重要性以及用户同系统的必要交互,对光学观测和监控数据的管理和处理已经提高到重要日程。

计算生物学。美国国家生物信息中心NCBI维护了GenBank的核苷酸序列数据库,该数据库大小每10个月翻倍。2009年8月,数据库中存储了来自15万多有机生物体的超过2500亿条核苷酸碱基。

天文学。从1998年到2008年,最大的天文目录SDSS从天文望远镜中获取了25Terabytes数据。随着天文望远镜分辨率的提高,每晚产生的数据量将在2014年超过20Terabytes。

高能物理。欧洲粒子物理实验室中大型强子对撞机实验,在2008年初起以2PB/s的速率产生数据,每年将存储约10PB经过处理的数据。

这些领域不但要产生海量的数据,还需要分布在世界各地的科学家们协作分析数据。由表可以看出,大部分的数据源产生PB级别的无结构数据,并且需要得到快速准确的分析。

二、数据属性

普适感知和计算产生前所未有的复杂的异构数据,这些数据集在规模、时间维度、数据类型的多样性等方面有着不同的特性。例如,移动数据和位置、运动、距离、通信、多媒体和声音环境等相关。NIST提出了大数据的5种属性。

•容量:数据集的大小。

•速度:数据生成速率和实时需求。

•多样性:结构化、半结构化和无结构的数据形式。

•水平扩展性:合并多数据集的能力。

•相关限制:包含特定的数据形式和查询。数据的特定形式包括时间数据和空间数据;查询则可以是递归或其他方式。

通常,科学研究领域的数据源在5种属性中具有最小的属性值;商业领域的数据源则具有较高的水平扩展性和相关限制的需求;而网络领域的数据源具有较高的容量、速度和多样性特征。

今天介绍了大数据价值链的数据生成部分,后面会继续带你认识不一样的大数据。

如果您想长期获取科技信息的解读,记得关注我,我会每天更新,谢谢。同时如果您有什么意见和建议,欢迎评论。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,980评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,422评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,130评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,553评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,408评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,326评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,720评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,373评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,678评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,722评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,486评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,335评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,738评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,283评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,692评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,893评论 2 335

推荐阅读更多精彩内容