240 发简信
IP属地:北京
  • Dataset和RDD中的coalesce和repartition

    Dataset coalesce不进行shuffle,分区从大变小,可以用来解决小文件问题repartition进行shuffle,增大分区数,...

  • rdd dataframe streaming cache persist的区别

    RDD Dataset Streaming 共同点:cache底层调用persist不同点:RDD 默认是 MEMORY_ONLYDataset...

  • Resize,w 360,h 240
    Hive的一个面试题

    需求:求出每个User截止当月总的流量 user date traffic熊猫tv 2018-01-02 ...

  • Spark 自定义UDAF

    前言 需求:业务需求要求求出score的最大值(max),最小值(min),均值(mean),标准差(stddev),中位数。需求的前四个值Sp...