文件系统层:在这一层里,分布式文件系统需具备存储管理、容错处理、高可扩展性、高可靠性和高可用性等特性。
数据存储层:由于目前采集到的数据,十之有七八为非结构化和半结构化数据,数据的表现形式各异,有文本的、图像的、音频的、视频的等,因此常见的数据存储也要对应有多种形式,有基于键值(Key-Value)的,有基于文档(Document),还有基于列(Column)和图表(Graph)的。如果采用单一的数据库引擎,“一刀切式”的满足所有类型的数据存储需求,通常会严重降低数据库管理的性能。因此,我们需要“兵来将挡,水来土掩”式的、多元的(Polyglot)【1】数据库解决方案(这就好比,如果“兵来了”和“水来了”,都要“将”去挡,遇到“兵”时,“将”可以“酣畅淋漓”,而遇到“水”时,还用“将”去挡,那这个“将”估计就要“舍生取义”了。文献【1】是一本有关NoSQL数据处理的图书)
资源管理层:这一层是为了提高资源的高利用率和吞吐量,以到达高效的资源管理与调度目的。
资源协调层: 在本层的系统,需要完成对资源的状态、分布式协调、一致性和资源锁实施管理。
计算框架层:在本层的计算框架非常庞杂,有很多高度专用的框架包含其内,有流式的,交互式的,实时的,批处理和迭代图的(Batch and Iterative Graph,BSP)等。为这些计算框架提供支撑的是运行时引擎,如BDAS【2】(Spark) 和Flink等(注:这里的BDAS是指“Berkeley Data Analytics Stack”,即伯克利数据分析栈。文献【2】为Spark核心作者Ion Stoica的讲座幻灯片文档)。
数据分析层:在这一层里,主要包括数据分析(消费)工具和一些数据处理函数库。这些工具和函数库,可提供描述性的、预测性的或统计性的数据分析功能及机器学习模块。
数据集成层:在这一层里,不仅包括管理数据分析工作流中用到的各种适用工具,除此之外,还包括对元数据(Metadata)管理的工具。
操作框架层:这一层提供可扩展的性能监测管理和基准测试框架。
架构的演进
减少数据生产者和消费者之间的处理延迟,一直是现代计算构架不断演进的主要动力。由此,诞生了实时和低延迟处理的计算构架,如Lambda和Kappa等,这类混合架构取长补短,架起传统的批处理层和交互式层之间连接的桥梁。
Lambda【3】-该架构是经典的大数据处理范式,是由南森�马兹(Nathan Marz)提出的一个实时大数据处理框架。更多有关Lamda的信息,请读者访问Lambda官方网站。(注:文献【3】是由James Kinley在轻博客网站Tumblr发表的一篇博文:Lambda 架构:构架实时大数据系统的原则)。
Kappa【4】-该计算构架可视为Lambda的一个强有力替代者,Kappa将数据处理的上游移至流式层(注:文献【4】是一篇博客文章,作者是Jay Kreps是Linkedln的一名在线数据架构技术高管。Kreps认为,虽然Lambda构架的理念很有价值,但终究还是一个临时解决方案。他设计了一个替代架构Kappa,是基于他在Linkedin构建Kafka和Samza的经验设计而成)。
SummingBird【5】-这是一个参考模型,用来桥接在线处理模式和传统处理模式。Summingbird是由Twitter(推特)公司用Scala语言开发的、并开源的大规模数据处理框架,支持开发者以批处理模式(基于Hadoop)或流处理模式(基于Storm),或混合模式(即前两种模式的组合)以统一的方式执行代码。(注:文献【5】是Summingbird的主要设计者Oscar Boykin、Sam Ritchie等人于2014年发表于知名期刊PVLDB中论文,其中论文的二作Sam Ritchie大有来头,他是计算机科学界的传奇人物、C语言和Unix的设计者Dennis Ritchie的侄子)。
文/玫瑰小鹿angelina(简书作者)原文链接:http://www.jianshu.com/p/7ffa50f4d4f0著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。
大数据处理的关键架构
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- PayPal高级工程总监:读完这100篇论文 就能成大数据高手-CSDN.NET http://www.csdn...
- 作者:Anil Madan 译者:张玉宏 文源:LinkeDin 转自:CSDN PayPal高级工程总监Anil...
- //我所经历的大数据平台发展史(三):互联网时代 • 上篇http://www.infoq.com/cn/arti...