对Spark的一些误解[翻译自Spark Misconceptions]

原文链接<https://0x0fff.com/spark-misconceptions/>

Spark Misconceptions

image.png

目前,媒体大肆宣传Apache Spark框架,它也一点一点地成为“大数据”领域的下一个重大事件。 要证明这一点,最简单的就是查看谷歌趋势图:

image.png

我在这里展示了过去的两年里Hadoop和Spark的(搜索热度趋势)。 可以看到Spark在终端客户中越来越受欢迎,他们(终端客户)正在通过互联网查看有关Spark的更多信息。 鉴于围绕这项技术的大肆宣传,它被许多神话(myths)和误解(misconceptions)所包围,许多人将其视为解决Hadoop问题的银弹(sliver bullet),其性能(相对于Hadoop)提高100倍。

在本文中,我将介绍有关此技术的主要误解,以便为期望在其系统中应用此框架的技术人员设定特定级别的期望(expectations)。 我想说,误解的主要根源是市场上一些专家提出的谣言和过度简化(oversimplifications)。 Spark文档足够清晰,可以反驳所有内容,但需要多阅读。 所以,我要讨论的主要误解是:

  1. Spark是一种内存技术(in-memory technology)。

  2. Sparkb比Hadoop快10-100倍。

  3. Spark为市场上的数据处理引入了全新的方法。

image.png

第一个也是最流行的关于Spark的误解是“Spark是内存技术”。完全没有,并没有一个Spark开发者正式声明这一点! 这些是基于对Spark计算过程的误解的谣言。

但是,让我们从头开始。 我们称什么样的技术为内存技术? 在我看来,这项技术允许您将数据保存在RAM中并有效地处理它。 我们在Spark看到了什么? 它没有内存数据持久化的选项,它有可插拔的用于不同的持久性存储系统的连接器,如HDFS,Tachyon,HBase,Cassandra等,但它没有本机持久化的代码,既不用于内存也不用于 磁盘存储。 它能做的一切就是缓存数据,这不是“持久化”。 基于连接器提供的源持久存储的其他可用数据,可以轻松地删除缓存数据并在以后重新计算。

接下来,一些人抱怨即使给出上述信息,Spark也会处理内存中的数据。 当然可以,因为您没有处理数据的其他选择。 OS API中的所有操作都允许您将块设备中的数据加载到内存中,然后将其卸载回块设备。 如果不将数据加载到内存中,您无法直接在HDD上计算内容,因为现代系统中的所有处理基本上都是内存处理。

鉴于Spark允许您使用LRU淘汰规则的内存缓存,您可能仍然认为它是内存技术,至少在您处理的数据是在内存中。 但是,让我们转向RDBMSs市场,并从那里拿出2个例子 - Oracle和PostgreSQL。 您认为他们如何处理数据? 它们使用共享内存段作为表页的池,所有数据读取和数据写入都通过此池。 此池还具有LRU淘汰规则以从中淘汰非脏(nod-dirty)表页(并且如果脏页太多则强制检查点进程)。 因此,通常现代数据库也可以有效地利用内存中的LRU缓存来满足他们的需求。 为什么我们不认为Oracle或PostgreSQL是内存解决方案? 那么Linux IO,你知道所有IO操作都通过OS IO缓存,这是同一个LRU缓存吗?

image.png

甚至更多,你认为Spark会在内存中的处理所有转换吗?你可能会感到失望,但Spark的核心“shuffle”将数据写入磁盘。如果您在SparkSQL查询中有一个“group by”语句,或者您只是将RDD转换为PairRDD并按key调用它,则会强制Spark根据key的哈希值在分区之间分配数据。 “shuffle”过程包括两个阶段,通常称为“map”和“reduce”。 “Map”只计算key(或其他你手动设置的分区函数)的哈希值,并将数据输出到本地文件系统上的N个单独文件,其中N是“reduce”端的分区数。 “Reduce”端轮询数据的“map”端并将其合并到新分区中。因此,如果您拥有M个分区的RDD并将其转换为有N个分区的Pair RDD,则会在集群的本地文件系统上创建M * N个文件,并保存特定RDD的所有数据。有一些优化可用于减少文件数量。还有一些工作经过预先排序然后在reduce端进行“合并”,但这并没有改变这个事实,即每次你需要“shuffle”你的数据,你把它放到硬盘驱动器上。

最后,Spark不是内存技术。 他是允许您有效利用内存中的LRU缓存,并在内存满状态下进行可能的磁盘淘汰。 它没有内置的持久化功能(既不在内存中也不在磁盘上)。 并且它在“shuffle”过程中将所有数据集数据放在本地文件系统上。

下一个误解是“Spark比Hadoop快10到100倍”。 让我们参考关于这个主题的早期报告(presentations)之一:http://laser.inf.ethz.ch/2013/material/joseph/LASER-Joseph-6.pdf。 它表示Spark的目标是支持迭代作业,这是机器学习的典型。 如果您参考Apache网站上的Spark主页,您将再次看到Spark闪光的示例:

image.png

而且,这个例子是关于称为“Logistic回归”的机器学习算法。 大多数机器学习算法的基本部分是什么? 他们多次在同一数据集上重复迭代。 这里是带有LRU淘汰的内存缓存才是Spark真正闪耀的地方! 当您连续多次迭代扫描同一数据集时,您只需要在第一次访问它时才读取它,之后您只是从内存中读取它。 这真的很棒。 但不幸的是,我认为他们正在以一种棘手的方式运行这些测试 - 在Hadoop上运行它们不利用HDFS缓存功能(http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html)。 当然他们没有义务,但我认为使用这个选项,性能差异将减少到大约3x-4x(因为更高效的实现,没有中间数据放在HDD上,更快的任务启动时间)。

image.png

在企业领域进行基准测试的悠久历史告诉我一件事:永远不要相信基准。 对于任何两个相互竞争的系统,您会发现十几个示例,其中SystemA比SystemB更快,而十几个示例中SystemB比SystemA更快。 您可以信任的(当然,有一些消息)是独立的基准测试框架,如TPC-H - 它们是独立的,并且正在尝试准备基准,这将涵盖显示解决方案的真实性能的大多数情况。

总的来数,Spark比Hadoop快有如下原因:

  1. 任务启动时间更快。 Spark fork线程,MR启动一个新的JVM。

  2. 更快的shuffle。 Spark在shuffle期间仅将数据放在HDD上一次,而MR是2次。

  3. 更快的工作流程。 典型的MR工作流是一系列MR作业,每个作业在迭代之间将数据保存到HDFS。 Spark支持DAG和流水线操作,这使得它可以在没有中间数据实现的情况下执行复杂的工作流程(除非您需要“shuffle”)。

  4. 缓存。 这是值得怀疑的,因为目前HDFS也可以利用缓存,但一般来说Spark缓存非常好,特别是它的SparkSQL部分以优化的面向列的形式缓存数据。

与Hadoop相比,所有这些都为Spark提供了良好的性能提升,对于短期运行的工作来说,实际上可以达到100倍,但对于实际生产工作负载,它最多不会超过2.5倍-3倍。

最新的神话,非常罕见:“Spark为市场上的数据处理引入了全新的方法”。 事实上,Spark并没有引入革命性的新东西。 他们擅长实现高效的LRU缓存和数据处理流水线的想法,但它们并不孤单。 如果您对这个问题持开放态度,您会注意到它们通常实现了与MPP数据库早先引入的几乎相同的概念:查询执行流水线操作,没有中间数据实现,表页的LRU缓存。 如您所见,一般来说Spark支柱(pillars)与Spark之前市场上存在的技术相同。 但当然,向前迈出的一大步是Spark在开源中实施它们并将它们提供给广泛的国际社区免费使用,大多数公司都没有准备好为企业MPP技术付费,同时仍然缺乏相似的水平的技术(lacking the similar level of performance)。

最后,我建议你不要相信你从媒体上听到的一切。 相信主题专家,他们通常最适合询问的人。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容