240 发简信
IP属地:湖北
  • 120
    Flink 架构初探

    1. Overview 本文将从 Flink 的基本概念入手,了解 Flink 的设计理念、运行架构以及任务提交和调度的流程。旨在对 Flink 从整体上建立一个初步的认识。...

  • 120
    Flink SQL 入门指北

    1. Overview 本文主要来自官网,旨在整理处 Flink SQL 的基本语法和使用,基础向。 2. API 调用 2.1 Old Planner VS Blink P...

  • 120
    Flink 之 State

    1. Overview State 是 Flink 中一个非常基本且重要的概念,本文将介绍什么是 State,如何使用 State,State 的存储和原理。以及 State...

  • 博主太监了?

    OkHttp缓存原理分析

    先摆上学习得到的结论: 头信息是存储在.0文件中,body信息是存储在.1文件中,所有的操作记录在 journal日志文件中。 只有客户端而没有服务端的支持也是可以实现缓存的...

  • 120
    Flink 之 Window

    1. Overview 本文首先将介绍 Flink 的时间语义,然后介绍 Windows 的基本使用和概念,最后通过一个具体 demo 进行实战演练。 2. 时间语义 Spa...

  • Spark Streaming 对接 Kafka 的那些事儿

    1. Background Kafka 作为 Spark Streaming 数据的最重要的来源,官方为此专门提供了二者整合的 jar 包。这使得我们可以很方便的对接二者,但...

  • Spark SQL 入门指北

    1. Overview 本文将介绍 Spark SQL 的基本概念和基本使用,并介绍自定义数据源和 catalyst 的基本概念。通过此文可以对 Spark SQL 建立一个...

  • Spark 之广播变量

    1. Background Spark 中有两种共享变量,其中一个是累加器,另一个是广播变量。前者解决了 Spark 闭包导致的局限性,如果不使用则会造成错误。后者更多时候是...

  • 120
    Spark 之累加器

    1. Overview 本文将通过闭包的概念引出累加器,并介绍累加器的基本使用以及如何自定义累加器,文章最后将说明在使用累加器时需要注意的问题 2. Basic 2.1 理解...

  • 120
    Spark RDD 之分区

    1. Background 分区是 RDD 中最重要的概念之一,RDD 的五大属性中,第一个描述的便是分区: A list of partitions 分区也是后续很多重要概...

  • 120
    Spark RDD 之持久化

    1. Background 当我们需要多次使用同一个 RDD 时,如果简单的调用 Action 操作,Spark 每次都会重算 RDD 以及它所有的依赖,此时需要用到持久化技...

  • 120
    Kylin 入门指北

    1. Background 在数仓指标中,多维度分析是一种常见的需求。当多个维度不确定具体组合时,需要我们在 hive 层使用 group by cube 或者手动优化 gr...

  • 浅谈数仓分层

    1. Background: 生产中,数仓分层没有一个统一的规范,各家公司都有一套自己的逻辑。命名更是五花八门。但只要有一套适合业务的分层、建模逻辑并贯彻执行,对开发效率的提...

  • Hadoop 压缩从理论到实战

    1. Background 在大数据领域,无论上层计算引擎采用的是什么,在存储过程中,压缩都是一个避不开的问题。合适的压缩选择可以降低存储成本、减少网络传输I/O。而错误的压...

  • Hive 之 UDAF

    1. Background 一句话概括 UDAF 的背景就是系统自带的聚合函数无法满足用户需求。 2. Basic 2.1 什么是 UDAF ? UDAF 即自定义聚合函数。...