驱动大数据的技术发展

据估计,每天会创建2.5百万兆字节的数据,我们需要将这些前所未有的大量数据妥善储存以便日后访问以及对其进行分析。这些数据量大到需要使用鲜为人知的单位来衡量,如ZB,PB和EB。随着公司搜集到的数据越来越多,并希望能方便的访问这些数据,这对技术和基础设施的要求更高了。21世纪初,行业分析师Doug Laney提出了一个大数据的构成定义,这个“三V”定义现在已经得到了广泛认可。“三V”定义使用三个标记来描述什么是大数据 – 不仅是对数据量的描述。


数量- 公司通常存储大量交易信息、社交媒体生成信息以及机器对机器和传感器数据。如果没有技术来处理如此大量的数据,那么如何高效地存储这些数据就成了一个问题。

速度- 我们可以通过RFID标签,传感器和其他新技术来高速传输数据流。如何实时存储和构建数据流是处理大数据的另一个挑战。

多样化- 数据有着各种各样的格式 - 从传统数据库到非结构化视频,电子邮件,音频和交易数据。所有这些类型的数据都必须被整合和结构化。

在这里我还是要推荐下我自己建的大数据学习交流群:532218147,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。

大数据的这三大特点向某些公司提出了挑战,它们需要结构化,可访问而且实惠的方式存储数据。这些挑战使得企业难以正确分析和利用大数据。这对企业来说是一个损失,就其性质而言,大数据通常包含与客户行为有关的有用信息。有了这么多的原始信息,有用的模式可以用来预测未来的客户行为。这只是大数据能带给公司潜力的众多方式之一。幸好新技术和处理数据的方式已经出现,可以满足公司不断增长的妥善存储和利用大数据的需求。一些新颖的技术对于大数据存储和利用很有用。


面向列的数据库- 传统数据库更注重行数而不是列,虽然传统数据库在联机事务处理速度和更新速度方面非常高效,但他们的短板随着数据量不断增长逐渐显露,变得更加不稳定,查询时间可能变得非常长。面向列的数据库有更快查询时间并可以高度压缩数据,它的缺点是通常只允许批量更新,导致更新时间较长。


无SQL数据库和无模式数据库- 这包括了如键值对存储方式和文本存储方式的数据库类型,这样的数据库专注于访问可能是结构化,非结构化或半结构化的大量数据。这些数据库超越了传统数据库的许多限制,例如读写一致性,从而在操作中获得可扩展性以及分布式处理的特点。


MapReduce- MapReduce允许针对大量服务器提供广泛的作业执行扩展能力。实现MapReduce由两个主要任务组成:Map任务和Reduce任务,Map任务将输入数据集转换成键值对的新集合,Reduce任务将Map任务的输出组合为一组精简的键值对。


Hadoop - 这是一个非常受欢迎的Map Reduce实现,是完全开源的大数据处理平台。它将处理分布到服务器集群上,Hadoop能够处理多种数据源,既可以通过汇总数据来执行大规模处理,也可以通过读取数据库来运行处理器密集型机器学习作业。Hadoop特别适用于处理大量不断变化的数据,包括基于位置的天气数据和交通传感器数据,社交媒体数据或机器事务数据。与使用高端的硬件设备处理大数据的方法相反,Hadoop的弹性来自其检测和处理应用层故障的能力。


PLATFORA - 作为MapReduce的一个低级实现,Hadoop需要大量的开发人员知识来操作。PLATFORA自动将用户的查询转换为Hadoop作业,并创建一个抽象层来组织Hadoop中存储的数据集。


大规模并行处理(MPP) -也称为“松散耦合”或“无共享”系统,MPP是由200及以上个处理器协同处理的程序,每个处理器都使用自己的操作系统和内存,运行着该程序的不同部分。处理器将使用消息接口进行通信。


Hive- Hive使传统商业智能应用程序能够查询Hadoop集群中的数据。最初由Facebook开发,它已经开源了一段时间。Hive使任何人都能对存储在Hadoop集群中的数据进行查询,就像用户操作传统数据仓库一样。这使得Hadoop对商业智能应用的用户来说更加熟悉。


数据流分析- 数据流分析技术可以过滤和分析来自不同实时数据源以及各种数据格式的大量数据。它非常了解数据并对流数据进行实时分析计算。企业可以通过成本效益的流分析来在企业界取得成功。流分析用于股票交易分析,金融服务和数据保护服务等主要行业。


分布式文件系统- 它允许客户端节点通过网络访问文件,多个用户可以共享和存储文件和资源。然而,客户端节点可以通过网络协议访问不易被访问的磁盘空间。因此,它为服务器和客户端创建了一定的文件系统访问权限。


以上大多数这些技术或多或少都利用了云计算。由于难以处理大数据,云计算成为了使各规模的公司能利用传统被浪费的数据潜力的关键。云计算能提高速度并减少开销,使得小公司也能存储、分析并利用这些数据。


由于计算机和互联网的容量不断提高,越来越多的数据需要以易于分析和访问的方式存储,传统的存储方法无法以高效且经济的方式实现。新的思路、方法和技术正在推动商业用户存储和处理大数据的能力。由于分析和利用非结构化数据的困难,许多企业不使用非结构化数据,随着处理大数据技术的不断发展并大到更高的效率,企业便更容易地利用这些数据

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容