240 发简信
IP属地:上海
  • 数据结构之LinkList链表

    链表与数组在数据结构的江湖上被并称为南数组、北链表,其江湖地位可见一斑 概念 链表作为最基础的通用存储结构,它的作用和数组是一样的,但存储数据的...

  • Spark中的exactly once语义

    exactly once指的是在处理数据的过程中,系统有很好的容错性(fault-tolerance),能够保证数据处理不重不丢,每一条数据仅被...

  • spark源码阅读之storage模块②

    在spark源码阅读之storage模块①中,描绘了Storage模块的整体框架是标准的master-slave框架:master用来管理sla...

  • Resize,w 360,h 240
    spark源码阅读之storage模块①

    Storage模块负责管理spark在计算过程中产生的数据,对用户来说,spark的编程面向的是RDD这种抽象的逻辑数据集,对RDD的转换和动作...

  • spark源码阅读之shuffle模块②

    在spark源码阅读之shuffle模块①中,介绍了spark版本shuffle的演化史,提到了主要的两个shuffle策略:HashBased...

  • Resize,w 360,h 240
    spark源码阅读之shuffle模块①

    我们在之前scheduler模块的分析中了解到,DAGScheduler划分stage的依据就是Shuffle Dependency,那么Shu...

  • spark源码阅读之scheduler模块②

    在spark源码阅读之scheduler模块①中,分析了DAGScheduler如何提交Job,并且将Job划分为stage提交给TaskSch...

  • Java中的collection类在Scala中的语法错误问题

    报错如下: error: value foreach is not a member of java.util.List[String][ERR...

  • spark源码阅读之scheduler模块①

    本文基于Spark 1.6.3版本源码 整体概述 spark的调度模块可以说是非常有特色的模块设计,使用DAG(有向无环图)刻画spark任务的...