Avatar notebook default
20篇文章 · 24560字 · 4人关注
  • Spark streaming

    1 说一下spark streaming? spark streaming是抽象了离散的数据流Dstream,包括一组连续的RDD,对Dstre...

  • Resize,w 360,h 240
    Spark基础之shuffle机制和原理分析

    总结 前提:每一个job提交后都会生成一个ResultStage和若干个ShuffleMapStage其中ResultStage表示生成作业的最...

  • 面试题:Spark相关一

    1 Spark与MR的区别? (5点) 参考:Spark与Hadoop MR的异同 使用场景:实时处理,spark生态更为丰富,功能更为强大、性...

    0.1 1281 4
  • Streaming核心概念

    DStream: 实际上,DStream代表一系列持续的RDD每一个在DStream中的RDD都代表着某个批次 一个DStream由多个RDD构...

  • spark streamingcontext 一些注意点

    有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName)...

  • Spark算子:RDD基本转换操作(2)–coalesce、repartition

    coalesce()方法的作用 将RDD进行重分区,使用HashPartitioner。第一个参数为重分区的数目,第二个为是否进行shuffle...

  • Resize,w 360,h 240
    第六章Spark SQL与DataFrame

    Spark SQL执行流程 在Spark SQL的运行架构中,逻辑计划(logical plan)贯穿了大部分过程,其中, Catalyst的S...

  • Resize,w 360,h 240
    第十五章调度管理

    第十五章调度管理 常用的作业调度基本概念: Job:作业,一次Action生成的一个或多个Stage组成的一次计算作业Stage:调度阶段,不需...

  • Spark 性能调优

    1 Spark SQL性能调优 通过缓存数据、调优参数、增加并行度提升性能P941)缓存数据构建一个内存中的列格式缓存表,Spark SQL仅扫...

文集作者