对Spark的一些误解[翻译自Spark Misconceptions]

原文链接<https://0x0fff.com/spark-misconceptions/>

Spark Misconceptions

image.png

目前，媒体大肆宣传Apache Spark框架，它也一点一点地成为“大数据”领域的下一个重大事件。要证明这一点，最简单的就是查看谷歌趋势图：

image.png

我在这里展示了过去的两年里Hadoop和Spark的(搜索热度趋势）。可以看到Spark在终端客户中越来越受欢迎，他们（终端客户）正在通过互联网查看有关Spark的更多信息。鉴于围绕这项技术的大肆宣传，它被许多神话（myths）和误解（misconceptions）所包围，许多人将其视为解决Hadoop问题的银弹（sliver bullet），其性能（相对于Hadoop）提高100倍。

在本文中，我将介绍有关此技术的主要误解，以便为期望在其系统中应用此框架的技术人员设定特定级别的期望（expectations）。我想说，误解的主要根源是市场上一些专家提出的谣言和过度简化（oversimplifications）。 Spark文档足够清晰，可以反驳所有内容，但需要多阅读。所以，我要讨论的主要误解是：

Spark是一种内存技术（in-memory technology)。
Sparkb比Hadoop快10-100倍。
Spark为市场上的数据处理引入了全新的方法。

image.png

第一个也是最流行的关于Spark的误解是“Spark是内存技术”。完全没有，并没有一个Spark开发者正式声明这一点！这些是基于对Spark计算过程的误解的谣言。

但是，让我们从头开始。我们称什么样的技术为内存技术？在我看来，这项技术允许您将数据保存在RAM中并有效地处理它。我们在Spark看到了什么？它没有内存数据持久化的选项，它有可插拔的用于不同的持久性存储系统的连接器，如HDFS，Tachyon，HBase，Cassandra等，但它没有本机持久化的代码，既不用于内存也不用于磁盘存储。它能做的一切就是缓存数据，这不是“持久化”。基于连接器提供的源持久存储的其他可用数据，可以轻松地删除缓存数据并在以后重新计算。

接下来，一些人抱怨即使给出上述信息，Spark也会处理内存中的数据。当然可以，因为您没有处理数据的其他选择。 OS API中的所有操作都允许您将块设备中的数据加载到内存中，然后将其卸载回块设备。如果不将数据加载到内存中，您无法直接在HDD上计算内容，因为现代系统中的所有处理基本上都是内存处理。

鉴于Spark允许您使用LRU淘汰规则的内存缓存，您可能仍然认为它是内存技术，至少在您处理的数据是在内存中。但是，让我们转向RDBMSs市场，并从那里拿出2个例子 - Oracle和PostgreSQL。您认为他们如何处理数据？它们使用共享内存段作为表页的池，所有数据读取和数据写入都通过此池。此池还具有LRU淘汰规则以从中淘汰非脏(nod-dirty)表页（并且如果脏页太多则强制检查点进程）。因此，通常现代数据库也可以有效地利用内存中的LRU缓存来满足他们的需求。为什么我们不认为Oracle或PostgreSQL是内存解决方案？那么Linux IO，你知道所有IO操作都通过OS IO缓存，这是同一个LRU缓存吗？

image.png

甚至更多，你认为Spark会在内存中的处理所有转换吗？你可能会感到失望，但Spark的核心“shuffle”将数据写入磁盘。如果您在SparkSQL查询中有一个“group by”语句，或者您只是将RDD转换为PairRDD并按key调用它，则会强制Spark根据key的哈希值在分区之间分配数据。 “shuffle”过程包括两个阶段，通常称为“map”和“reduce”。 “Map”只计算key（或其他你手动设置的分区函数）的哈希值，并将数据输出到本地文件系统上的N个单独文件，其中N是“reduce”端的分区数。 “Reduce”端轮询数据的“map”端并将其合并到新分区中。因此，如果您拥有M个分区的RDD并将其转换为有N个分区的Pair RDD，则会在集群的本地文件系统上创建M * N个文件，并保存特定RDD的所有数据。有一些优化可用于减少文件数量。还有一些工作经过预先排序然后在reduce端进行“合并”，但这并没有改变这个事实，即每次你需要“shuffle”你的数据，你把它放到硬盘驱动器上。

最后，Spark不是内存技术。他是允许您有效利用内存中的LRU缓存，并在内存满状态下进行可能的磁盘淘汰。它没有内置的持久化功能（既不在内存中也不在磁盘上）。并且它在“shuffle”过程中将所有数据集数据放在本地文件系统上。

下一个误解是“Spark比Hadoop快10到100倍”。让我们参考关于这个主题的早期报告（presentations）之一：http：//laser.inf.ethz.ch/2013/material/joseph/LASER-Joseph-6.pdf。它表示Spark的目标是支持迭代作业，这是机器学习的典型。如果您参考Apache网站上的Spark主页，您将再次看到Spark闪光的示例：

image.png

而且，这个例子是关于称为“Logistic回归”的机器学习算法。大多数机器学习算法的基本部分是什么？他们多次在同一数据集上重复迭代。这里是带有LRU淘汰的内存缓存才是Spark真正闪耀的地方！当您连续多次迭代扫描同一数据集时，您只需要在第一次访问它时才读取它，之后您只是从内存中读取它。这真的很棒。但不幸的是，我认为他们正在以一种棘手的方式运行这些测试 - 在Hadoop上运行它们不利用HDFS缓存功能（http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html）。当然他们没有义务，但我认为使用这个选项，性能差异将减少到大约3x-4x（因为更高效的实现，没有中间数据放在HDD上，更快的任务启动时间）。

image.png

在企业领域进行基准测试的悠久历史告诉我一件事：永远不要相信基准。对于任何两个相互竞争的系统，您会发现十几个示例，其中SystemA比SystemB更快，而十几个示例中SystemB比SystemA更快。您可以信任的（当然，有一些消息）是独立的基准测试框架，如TPC-H - 它们是独立的，并且正在尝试准备基准，这将涵盖显示解决方案的真实性能的大多数情况。

总的来数，Spark比Hadoop快有如下原因：

任务启动时间更快。 Spark fork线程，MR启动一个新的JVM。
更快的shuffle。 Spark在shuffle期间仅将数据放在HDD上一次，而MR是2次。
更快的工作流程。典型的MR工作流是一系列MR作业，每个作业在迭代之间将数据保存到HDFS。 Spark支持DAG和流水线操作，这使得它可以在没有中间数据实现的情况下执行复杂的工作流程（除非您需要“shuffle”）。
缓存。这是值得怀疑的，因为目前HDFS也可以利用缓存，但一般来说Spark缓存非常好，特别是它的SparkSQL部分以优化的面向列的形式缓存数据。

与Hadoop相比，所有这些都为Spark提供了良好的性能提升，对于短期运行的工作来说，实际上可以达到100倍，但对于实际生产工作负载，它最多不会超过2.5倍-3倍。

最新的神话，非常罕见：“Spark为市场上的数据处理引入了全新的方法”。事实上，Spark并没有引入革命性的新东西。他们擅长实现高效的LRU缓存和数据处理流水线的想法，但它们并不孤单。如果您对这个问题持开放态度，您会注意到它们通常实现了与MPP数据库早先引入的几乎相同的概念：查询执行流水线操作，没有中间数据实现，表页的LRU缓存。如您所见，一般来说Spark支柱（pillars）与Spark之前市场上存在的技术相同。但当然，向前迈出的一大步是Spark在开源中实施它们并将它们提供给广泛的国际社区免费使用，大多数公司都没有准备好为企业MPP技术付费，同时仍然缺乏相似的水平的技术(lacking the similar level of performance)。

最后，我建议你不要相信你从媒体上听到的一切。相信主题专家，他们通常最适合询问的人。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

对Spark的一些误解[翻译自Spark Misconceptions]

Spark Misconceptions

推荐阅读更多精彩内容