[源码分析]spark shuffle的写操作

基于spark1.6版本的理解，简单聊一聊spark shuffle 写操作的过程，以及该过程中可以优化的地方；见解粗略，往提出意见
spark1.6版本shuffle默认的方式是Sort based shuffle；
该方式使用了 SortShuffleWriter类的writer方法

写入的入口

override def write(records: Iterator[Product2[K, V]]): Unit = {
    /**
      * 获取排序的方式：ExternalSorter
      * （1）聚合排序
      * （2）不聚合排序
      */
    sorter = if (dep.mapSideCombine) {
      require(dep.aggregator.isDefined, "Map-side combine without Aggregator specified!")
      new ExternalSorter[K, V, C](
        context, dep.aggregator, Some(dep.partitioner), dep.keyOrdering, dep.serializer)
    } else {
      new ExternalSorter[K, V, V](
        context, aggregator = None, Some(dep.partitioner), ordering = None, dep.serializer)
    }
    //对其进行聚合排序，溢写
    sorter.insertAll(records)
    val output = shuffleBlockResolver.getDataFile(dep.shuffleId, mapId)
    val tmp = Utils.tempFileWith(output)
    val blockId: ShuffleBlockId = ShuffleBlockId(dep.shuffleId, mapId, IndexShuffleBlockResolver.NOOP_REDUCE_ID)
    //
    val partitionLengths = sorter.writePartitionedFile(blockId, tmp)
    shuffleBlockResolver.writeIndexFileAndCommit(dep.shuffleId, mapId, partitionLengths, tmp)
    mapStatus = MapStatus(blockManager.shuffleServerId, partitionLengths)
  }

（1）首先是根据是否要在map端进行聚合，获取不同的ExternalSorter对象，该对象会对数据进行聚合、排序、落地磁盘；

（2）如果需要进行聚合排序，或者直接落地磁盘，进入insertAll方法，如果需要聚合数据则会放入到PartitionedAppendOnlyMap[K, C] 对象中，否则放入到PartitionedPairBuffer[K, C]对象中,这两个对象占用的是执行内存，数据是一条条加入到缓存中，如果内存不够则会触发溢写磁盘

def insertAll(records: Iterator[Product2[K, V]]): Unit = {
    val shouldCombine = aggregator.isDefined
    //使用聚合
    if (shouldCombine) {
      // Combine values in-memory first using our AppendOnlyMap
      val mergeValue = aggregator.get.mergeValue
      val createCombiner = aggregator.get.createCombiner
      var kv: Product2[K, V] = null
      val update = (hadValue: Boolean, oldValue: C) => {
        if (hadValue) mergeValue(oldValue, kv._2) else createCombiner(kv._2)
      }
      //遍历每一条数据，加入到缓存中，占用的是执行内存
      while (records.hasNext) {
        //记录条数
        addElementsRead()
        kv = records.next()
        //此步功能：？？？？？？？？？？ 聚合
        map.changeValue((getPartition(kv._1), kv._1), update)
        //
        maybeSpillCollection(usingMap = true)
      }
    } else {
      // Stick values into our buffer
      while (records.hasNext) {
        addElementsRead()
        val kv = records.next()
        buffer.insert(getPartition(kv._1), kv._1, kv._2.asInstanceOf[C])
        maybeSpillCollection(usingMap = false)
      }
    }
  }

参与聚合的会在此处进行聚合

map.changeValue((getPartition(kv._1), kv._1), update)

（3）判断是否需要进行溢写（maybeSpillCollection），如果溢写，则会重新生成PartitionedAppendOnlyMap或者PartitionedPairBuffer缓存对象

private def maybeSpillCollection(usingMap: Boolean): Unit = {
    var estimatedSize = 0L
    if (usingMap) {
      //评估数据在内存中的大小byte
      estimatedSize = map.estimateSize()
      if (maybeSpill(map, estimatedSize)) {
        map = new PartitionedAppendOnlyMap[K, C]
      }
    } else {
      estimatedSize = buffer.estimateSize()
      if (maybeSpill(buffer, estimatedSize)) {
        buffer = new PartitionedPairBuffer[K, C]
      }
    }

    if (estimatedSize > _peakMemoryUsedBytes) {
      _peakMemoryUsedBytes = estimatedSize
    }
  }

（4）具体判断是否溢写的逻辑在maybeSpill，每接受32条数据，且满足当前在缓存中的数据大小大于阈值才会进行检查是否溢写，如果满足了检测条件，则去申请内存：2 * currentMemory - myMemoryThreshold，如果申请到，则不溢写，同时阈值会提高到2 * currentMemory，否则会进行溢写到磁盘，恢复阈值到初始值(默认5M，由‘spark.shuffle.spill.initialMemoryThreshold’设置)

 protected def maybeSpill(collection: C, currentMemory: Long): Boolean = {
    var shouldSpill = false
    //每32次检查一下以及放入到缓存中的大小大于阈值，决定是否进行spill
    if (elementsRead % 32 == 0 && currentMemory >= myMemoryThreshold) {
      // 从shulle内存池中申请2倍的当前使用内存
      val amountToRequest = 2 * currentMemory - myMemoryThreshold
      val granted =
        taskMemoryManager.acquireExecutionMemory(amountToRequest, MemoryMode.ON_HEAP, null)
      myMemoryThreshold += granted
      shouldSpill = currentMemory >= myMemoryThreshold//当内存没有申请下来，那么就会spill
    }
    shouldSpill = shouldSpill || _elementsRead > numElementsForceSpillThreshold  //要么内存不够，要么条数达到了限制
    // 实际溢写
    if (shouldSpill) {
      _spillCount += 1//记录spill次数
      logSpillage(currentMemory)
      spill(collection)//开始溢写
      _elementsRead = 0
      _memoryBytesSpilled += currentMemory
      releaseMemory()//释放内存到初始值
    }
    shouldSpill
  }

（5）真正溢写由方法spill完成

a、首先会对数据进行排序，此时不需要额外的内存，只在缓存中进行；
b、其次是获取写流的对象，其中自己定义了写流的缓存，默认32k(spark.shuffle.file.buffer)，当达到32k直接溢写到本地文件中，否则等待满足10000(spark.shuffle.spill.batchSize)条的条件；此处可以优化,提高这两个参数都可以减少溢写的次数，也就是减少形成的文件个数

（6）通过shuffle编号和map编号去获取该数据文件

val output = shuffleBlockResolver.getDataFile(dep.shuffleId, mapId)
val tmp = Utils.tempFileWith(output)

（7）通过shuffle编号和map编号去获取shuffleBlock编号

val blockId: ShuffleBlockId = ShuffleBlockId(dep.shuffleId, mapId, IndexShuffleBlockResolver.NOOP_REDUCE_ID)

（8）在ExternalSorter对象中，对缓存中的数据以及已经spill的数据进行merger，形成一个文件

val partitionLengths = sorter.writePartitionedFile(blockId, tmp)

（9）生成索引文件

shuffleBlockResolver.writeIndexFileAndCommit(dep.shuffleId, mapId, partitionLengths, tmp)

（10）将元数据信息写入到MapStatus中，后续的任务可以通过它获取结果信息

mapStatus = MapStatus(blockManager.shuffleServerId, partitionLengths)

总结

1、shuffle写入的流程图

clipboard.png

2、shuffle写入的优化简单有两个参数可以调节：

（1）spark.shuffle.file.buffer
（2）spark.shuffle.spill.batchSize

疑问

在对spill文件进行merger操作时，会发生OOM吗？由于对此处源码部分没有很清晰的认识，所以对此处产生了疑问，欢迎大家的解答

最后编辑于：2018.07.27 20:56:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,723评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,080评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,604评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,440评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,431评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,499评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,893评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,541评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,751评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,547评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,619评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,320评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,890评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,896评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,137评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,796评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,335评论 2赞 342