如何将Apache Spark用于不同类型的大数据分析用例

主要结论

了解如何将Apache Spark用于不同类型的大数据分析用例，例如批处理、互操作、图表、数据流分析，以及机器学习。

了解Spark Core及加载项库，包括Spark SQL、Spark Streaming、GraphX、Mllib和Spark ML。

了解开发者在项目中使用Spark时可能需要用到的开发和测试工具。

Spark程序性能和调优最佳实践。

了解Spark在集群设置、管理和监控中的使用。

Mohammed Guller撰写的《 Spark大数据分析》(Big Data Analytics with Spark)一书针对使用 Apache Spark 框架执行批处理、互操作、图表、数据流分析，以及机器学习等不同类型的大数据分析项目提供了实用的指南。其中介绍了 Spark core 及其加载项库，包括Spark SQL、Spark Streaming、GraphX、Mllib，以及Spark ML。欢迎加入大数据学习交流分享群： 658558542 一起吹水交流学习

本书读者将了解到如何使用Apache Spark框架的内存中(In-memory)缓存和高级执行引擎组件进行数据分析。

作者谈到了如何使用Spark作为数据处理的统一平台，执行诸如ETL管线、商业智能、实时数据流处理、图表分析，以及机器学习等任务。同时他还讨论了其他话题，例如Spark程序的集群管理器和监控。

本书还介绍了经常配合Spark使用的其他技术和框架，例如分布式文件管理系统(HDFS)、Avro、Parquet、分布式消息( Kafka )、NoSQL数据库( Cassandra 、 HBase )，以及集群管理( Mesos )。

我们与Mohammed Guller讨论了本书、Spark框架，以及用于Spark大数据应用程序的开发者工具。

问：您对Apache Spark框架的定义是怎样的?该框架对大数据分析项目和倡议能提供什么帮助?

Guller：Apache Spark是一个快速、简单易用、通用的大数据集处理集群式计算框架，可实现极大规模和极高速度。更重要的是，借助该框架可以轻松地针对大规模数据集执行各类数据处理任务。它为批处理、即席分析、机器学习、流处理以及图表分析提供了一套集成库。

数据正在以指数形式增长。另外目前生成的大部分数据并非结构化的，而是多结构化或非结构化的。关系型数据库等传统工具无法应对今天数据的数据量、生成速度和种类。因此需要Spark这样的框架。它使得用户能轻松处理不同数量、速度和种类的大数据。另外要注意的是，组织需要通过不同方式处理或分析数据以从中获得价值。Spark为不同类型数据的处理和分析任务提供了统一平台。与专门承担批处理或流处理任务的专用框架不同，使用Spark时无需复制代码或数据。欢迎加入大数据学习交流分享群： 658558542 一起吹水交流学习

问：开发者在项目中使用Spark后需要用到哪些开发和测试工具，您能否介绍一下?

Guller：一般来说，开发者可以针对Spark所能支持的编程语言使用任何可用的工具。目前Spark可支持Scala、Java、Python和R。

以Scala为例。Spark自带一个名为Spark-Shell的交互式开发环境，这个环境就是基于Scala REPL(Read Evaluate Print Loop)工具实现的。用户可以借助它快速简单地上手Spark。此外开发者还可以使用标准的Scala IDE，例如Eclipse和IntelliJ IDEA。如果不想使用IDE，还可以用惯用的文本编辑器编写代码并使用SBT(Simple Build Tool)编译。欢迎加入大数据学习交流分享群： 658558542 一起吹水交流学习

问：对于刚开始学习Spark框架的开发者新手，您是否能提供些最佳实践?

Guller：学习Spark的最好方式是大量做实验，并使用Spark API编写代码。编写执行代码后，相关概念也会变得更清楚。学习任何新的语言或工具都是如此。

虽然Spark是大数据处理框架，但学习Spark的过程中并不需要具备大规模集群或大型数据集。你可以在自己的笔记本上使用小规模数据集运行Spark，借此熟悉Spark提供的API和各种库。我的书中专门有一章向初学者介绍如何轻松上手Spark。

问：Spark目前支持的编程语言有Scala、Java、Python和R，您觉得这些语言相比而言有什么优劣?如果开发者新手需要选择一种语言，您有什么推荐?

Guller：Spark本身是使用Scala编写的。因此以前Scala是Spark的“一等公民”，对其他语言的支持都略有滞后。然而目前发布的每个Spark新版本中，这样的差距变得越来越小。同理，以前使用Scala编写的Spark应用程序比Python应用程序性能更优，但Spark正在对此进行各种优化，速度的差异也会逐渐减小。

我个人很喜欢Scala，这种语言可以提高生产力，有助于写出更简洁，质量更高的代码。我也正是因此重新拾回了对编程的热爱。

话虽如此，开发者其实可以使用自己习惯的任何语言。如果你对Python比较在行就用Python。只要你熟悉的语言是Spark所能支持的，就没必要更换或学习新的语言。欢迎加入大数据学习交流分享群： 658558542 一起吹水交流学习

如果希望学习新语言并获得更优化的性能，那么我要推荐Scala。我的书中专门有一章是介绍功能编程和Scala的。

问：在本地计算机或云端设置Spark集群的最佳方式是什么?

Guller：Spark提供的spark-ec2脚本可用于在Amazon AWS设置Spark集群。这个脚本可启动、管理和关闭Amazon云中的Spark集群。同时该脚本可以安装Spark和HDFS。这是一个非常灵活的脚本，支持多种输入参数，还可针对具体的处理需求和预算创建自定义集群。

问：能否谈谈使用Spark Streaming库执行实时流数据分析?

Guller：Spark Streaming库扩展了Spark的流处理能力，能够为用户提供近乎实时的流数据分析能力。它使用了一种微批(Micro-batching)体系结构。这种技术在本质上会将一条数据流拆分为多个微批，并可由开发者指定批区间(Batch interval)。每个微批可由一个RDD(Resilient Distributed Dataset)代表，RDD同时也是Spark最主要的数据抽象。

微批体系结构有优势也有劣势。优势方面，可以提供极高的吞吐量，因此Spark Streaming非常适合针对流数据执行分析。然而如果应用程序需要以极低延迟(毫秒级别)分别处理流中的每个事件，可能并不适合使用Spark Streaming。

问：Spark程序的性能和调优方面有什么需要注意的?

Guller：这是个很大的话题。Spark提供了很多性能调优机制，我会介绍一些最需要引起注意的重要事项。

首先，对于大部分数据处理应用程序，磁盘I/O都是影响应用程序执行速度的决定性因素。Spark可以让用户在内存中创建数据，请尽量利用这一特性。将数据缓存在内存中可以让应用程序提速100倍以上。当然这也意味着最好使用具有大量内存的计算机搭建Spark集群。

其次，请避免需要进行数据重排(Data shuffling)的操作。跨越网络进行数据重排是一种开销很高的操作，在编写数据处理逻辑时一定要注意这一点。有时候相同的逻辑也可以通过更高效的操作实现，例如不要使用groupByKey操作，而是可以使用reduceByKey操作。

第三，优化数据中的分区数量。如果数据尚未分区，就无法充分利用Spark在并行数据处理方面的优势。例如，假设有一个100内核的Spark集群，但如果数据只有2个分区，此时将无法充分运用所有计算能力。

第四，通过共置的数据节点和计算节点可以获得更好的性能。举例来说，如果数据在HDFS中，请在同一个HDFS集群中安装Spark。Spark会在距离数据尽可能近的位置处理这些数据。例如，它首先会尝试在数据所在计算机上执行任务。如果该计算机无法执行任务，随后会尝试使用同一机机柜的其他计算机。如果依然不可行，最后才会选择使用任意一台计算机。请尽量将磁盘和网络I/O降至最低。

这就是一些值得大家注意的，有关性能的常见注意事项。欢迎加入大数据学习交流分享群： 658558542 一起吹水交流学习

问：目前Spark程序在安全保护方面有哪些措施?如何只让获得许可的用户或应用执行这些程序?

Guller：Spark支持两种身份验证方法：共享密钥(Shared secret)和Kerberos。共享密钥身份验证机制可以配合所有集群管理器使用：YARN、Mesos，以及独立使用。此外YARN还可将Kerberos与Spark配合使用。

Spark还支持使用SSL与SASL进行加密。SSL主要用于安全通信协议，SASL主要用于保护块传输服务。

问：如何使用Spark Web Console和其他工具监控Spark程序?通常在监控Spark程序时您会使用哪些度量指标?

Guller：Spark提供了完善的监控能力。我的书中有一章专门介绍了这个话题。Spark不仅可以暴露各种度量指标，而且针对Spark集群和其中运行的应用程序提供了基于Web的监控界面。此外还能支持第三方监控工具，例如Graphite、Ganglia以及基于JMX的监控应用。

我会在性能优化和调试过程中进行监控。具体选择的度量指标取决于打算要解决的问题。例如，可以使用监控界面检查集群状态以及应用程序的资源分配情况。同理，也可以使用监控界面查看应用程序所提交的作业中的并行数量。另外还可以查看不同任务处理的数据量和所用时间。这些信息可以帮你找出卡滞的任务，当然这些只是几个简单的例子。

问：您期待在以后发布的Spark版本中见到什么新功能?

Guller：Spark开发者社区在每个新版本中都在尽全力改善Spark。因此我的期待并不重要。但我希望看到更多与机器学习有关的新功能。

另外我觉得Spark还缺少一样东西：针对Scala开发者提供的图表或数据绘图(Plotting)库。探索式可视化是数据分析的重要一环，R开发者可以使用ggplot2，Python有matplotlib，Scala开发者要是也有类似的技术就太好了。

另外我还希望看到Spark的统计和机器学习库能够赶上R提供的类似技术。最后，我还希望能够通过更好的支持让用户使用PMML和PFA等标准导出和导入机器学习模型。

问：Spark Machine Learning目前提供了多种不同算法。你是否看到有其他ML库能够为组织的机器学习和数据科学需求提更多价值?

Guller：你说的没错，Spark的机器学习库提供了丰富的算法，并且每个新版都增加了新的算法。

Spark可以配合外部机器学习库使用，因此无论Spark缺乏哪种能力，都可以通过其他库弥补。例如，Stanford CoreNLP库配合Spark使用可以执行NLP-heavy机器学习任务，类似的SparkNet、CaffeOnSpark、DeepLearning4J或TensorFlow也可以与Spark配合使用实现更深入的学习。

Guller还谈到了Spark框架为用户提供的价值。

Guller：Spark是一个很棒的大数据分析和处理框架，非常易于使用，针对不同任务提供了丰富的库。此外它还针对非常大规模数据集的处理提供了扩展能力和极高的速度。任何需要处理大数据或进入大数据领域的用户都有必要掌握。

他同时还提到有很多人向他询问Hadoop和Spark之间的关系，并回答了两个最长听到的问题。

问：Spark会取代Hadoop吗?

Guller：简单来说，不会。今天的Hadoop代表了多个产品组成的生态系统，Spark也是这个生态系统的成员。就算最核心的Hadoop也包含三个组件：一个集群管理器，一个分布式计算框架，以及一个分布式文件系统。其中集群管理器是YARN，计算框架是MapReduce，分布式文件系统是HDFS。Spark是Hadoop MapReduce组件的继任者。

很多人在使用Spark作业取代原有的MapReduce作业，或在Spark中编写新的作业。因此可以说Spark会取代MapReduce，但无法取代Hadoop。

另外有个重要的事情需要注意，Spark可以配合Hadoop使用，但也可以在不具备Hadoop的情况下使用。例如，可以使用Mesos或独立集群管理器替代YARN，同理也可以使用S3或其他数据源代替HDFS。因此使用Spark并非必须要同时使用Hadoop。

问：为什么有人使用Spark代替MapReduce?

Guller：相比MapReduce，Spark可以提供更多优势。

首先，Spark比MapReduce速度快很多。取决于具体应用，可能会比MapReduce快100倍。Spark如此之快的一个原因在于其先进的作业执行引擎。Spark作业可以划分为任意数量的阶段(Stage)，而MapReduce作业只能分为两个阶段。另外Spark可以让应用程序将数据缓存在内存中。缓存机制可极大改进应用程序性能。磁盘I/O会大幅影响数据处理应用程序的执行速度，Spark则能将磁盘I/O降至最低。

其次，Spark很易用。Spark提供了丰富的API和超过80种操作，MapReduce只能提供两种操作：Map和Reduce。Spark API可以通过Scala、Python、Java和R四种语言使用。相比在MapReduce中编写的作业，相同数据处理作业使用Scala/Spark编写时代码量可以减少5-10倍。因此Spark也能大幅提高开发者的生产力。

第三，Spark针对不同类型的数据处理任务提供了统一的工具。该产品内置了用于批处理、交互式分析、机器学习、流处理，以及图表分析的集成库，用户不再需要学习多种工具。也不需要将代码和数据复制到多个位置。另外从运营的角度来说，一个集群的管理，无疑要比针对不同类型作业创建多个专用集群管理起来更简单。欢迎加入大数据学习交流分享群： 658558542 一起吹水交流学习

关于这本图书的作者

Mohammed Guller 是Glassbeam的首席架构师，主要负责高级分析和预测分析产品的开发。过去20多年来，Mohammed成功地领导了诸多创新式技术产品从概念到发布的全过程。在加入Glassbeam之前，他是TrustRecs.com的创始人，这是他在IBM工作五年后成立的。加入IBM之前，他曾就职于多个高科技初创公司，负责新产品的开发工作。Mohammed具备美国加州大学伯克利分校工商管理硕士学位，以及印度古吉拉特邦大学Rollwala计算机中心的计算机应用硕士学位。

结语

感谢您的观看，如有不足之处，欢迎批评指正。

如果有对大数据感兴趣的小伙伴或者是从事大数据的老司机可以加群：

658558542

里面整理了一大份学习资料，全都是些干货，包括大数据技术入门，海量数据高级分析语言，海量数据存储分布式存储，以及海量数据分析分布式计算等部分，送给每一位大数据小伙伴，这里不止是小白聚集地，还有大牛在线解答！欢迎初学和进阶中的小伙伴一起进群学习交流，共同进步！

最后祝福所有遇到瓶颈的大数据程序员们突破自己，祝福大家在往后的工作与面试中一切顺利。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

如何将Apache Spark用于不同类型的大数据分析用例

推荐阅读更多精彩内容