Avatar notebook default
21篇文章 · 40360字 · 1人关注
  • Ambari Spark 集成 Hive

    beeline出现org.apache.thrift.TApplicationException: Required field ‘client...

  • Resize,w 360,h 240
    SortShuffle之UnsafeShuffleWriter

    UnsafeShuffleWriter 对应SortShuffle的tungsten-sort方式 实现方式参考图: UnsafeShuffle...

  • Resize,w 360,h 240
    Spark之SortShuffle原理参考

    refer1: https://www.cnblogs.com/itboys/p/9201750.html refer2: https://ww...

  • Spark数据倾斜调优3

    一、数据倾斜发生的原理 原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进...

  • Resize,w 360,h 240
    SparkRDD核心详解

    Spark编程模型RDD,即弹性分布式数据集的简称。RDD是一个容错的、并行的数据结构,可以让用户显式地将数据映射/存储到磁盘和内存中,并能控制...

  • Resize,w 360,h 240
    SortShuffle之SortShuffleWriter

    SortShuffleWriter 对应SortShuffle的sort方式 通过SortShuffleWriter源码可以看出SortShuf...

  • Resize,w 360,h 240
    SortShuffle之UnsafeShuffleWriter

    UnsafeShuffleWriter 对应SortShuffle的tungsten-sort方式 #实现方式参考图: #UnsafeShuff...

  • Resize,w 360,h 240
    SortShuffle之BypassMergeSortShuffleWriter

    BypassMergeSortShuffleWriter BypassMergeSortShuffleWriter和Hash Shuffle中的...

  • Spark-Shuffle类算子优化+

    优化就是:尽量避免使用shuffle类算子 如果有可能的话,要尽量避免使用shuffle类算子。因为Spark作业运行过程中,最消耗性能的地方就...

文集作者