现在大数据产业发展的如火如荼,国家也支持大数据产业的发展。而在大数据发展应用中,需要很多的技术来支持大量数据的处理,spark就是其中之一,而且是目前企业中应用最为广泛的一种技术。
spark是一种计算引擎,它是专门为大规模数据处理而设计的快速通用的计算引擎。目前也形成了一套特定的生态系统。其主要的应用场景如下:
1. Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小;
2. 由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合;
3. 数据量不是特别大,但是要求实时统计分析需求。
只要满足以上条件都可以用spark技术来进行处理。在spark的应用场景中,普遍都是计算量巨大,效率要求较高的业务上。Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有运行速度快、易用性好、通用性强以及随处运行等特点,适合大多数批处理工作,并已成为大数据时代企业大数据处理优选技术,其中有代表性企业有腾讯、Yahoo、淘宝以及优酷土豆等。
小编收藏整理了一些大数据学习的相关资料和免费的公开课,需要的话可以直接留言评论小编!!!