240 发简信
IP属地:湖南
  • Flume Push方式整合Spark-Streaming

    Approach : Flume-style Push-based Approach Flume 可以使用push的方式来整合spark-str...

  • Flume Pull方式整合Spark-Streaming

    Approach: Pull-based Approach using a Custom Sink Flume的sink不直接连接Spark组件...

  • JVM类的加载过程

    一、loading 加载 该加载是狭义上的,指将class文件从外部加载到内存中 class文件来源可以有: 过程分为: 1、通过一个类...

  • groupByKey、reduceByKey、aggregateByKey区别

    三者都可以做分组操作。reduceByKey、aggregateByKey不但分组还做了聚合操作 groupByKey直接进行shuffle操作...

  • Resize,w 360,h 240
    Spark三大数据结构

    RDD: 弹性分布式数据集 RDD特点 数据集:RDD是spark中最常见的数据结构。RDD中不直接存储数据,只存储了数据的计算逻辑,只有当ac...

  • Resize,w 360,h 240
    Flume概览

    一、Flume 核心组件 一个Flume处理组件组成成为Agent 1)Soucrce 用来收集数据,是数据的来源, 2)Channel 用来暂...

  • Resize,w 360,h 240
    离线计算和实时计算的对比

    数据来源 1)数据来源 离线计算:HDFS 历史数据等,一般数据规模比较大 实时计算:一般来自于消息队列(kafka等),实时地新增、修改记录过...