240 发简信
IP属地:天津
  • Resize,w 360,h 240
    Flink 架构初探

    1. Overview 本文将从 Flink 的基本概念入手,了解 Flink 的设计理念、运行架构以及任务提交和调度的流程。旨在对 Flink...

  • Resize,w 360,h 240
    Flink SQL 入门指北

    1. Overview 本文主要来自官网,旨在整理处 Flink SQL 的基本语法和使用,基础向。 2. API 调用 2.1 Old Pla...

  • Resize,w 360,h 240
    Flink 之 State

    1. Overview State 是 Flink 中一个非常基本且重要的概念,本文将介绍什么是 State,如何使用 State,State ...

  • Resize,w 360,h 240
    Flink 之 Window

    1. Overview 本文首先将介绍 Flink 的时间语义,然后介绍 Windows 的基本使用和概念,最后通过一个具体 demo 进行实战...

  • Spark Streaming 对接 Kafka 的那些事儿

    1. Background Kafka 作为 Spark Streaming 数据的最重要的来源,官方为此专门提供了二者整合的 jar 包。这使...

  • Spark SQL 入门指北

    1. Overview 本文将介绍 Spark SQL 的基本概念和基本使用,并介绍自定义数据源和 catalyst 的基本概念。通过此文可以对...

  • Spark 之广播变量

    1. Background Spark 中有两种共享变量,其中一个是累加器,另一个是广播变量。前者解决了 Spark 闭包导致的局限性,如果不使...

  • Resize,w 360,h 240
    Spark 之累加器

    1. Overview 本文将通过闭包的概念引出累加器,并介绍累加器的基本使用以及如何自定义累加器,文章最后将说明在使用累加器时需要注意的问题 ...

  • Resize,w 360,h 240
    Spark RDD 之分区

    1. Background 分区是 RDD 中最重要的概念之一,RDD 的五大属性中,第一个描述的便是分区: A list of partiti...