1. Overview 本文将从 Flink 的基本概念入手,了解 Flink 的设计理念、运行架构以及任务提交和调度的流程。旨在对 Flink 从整体上建立一个初步的认识。...
1. Overview 本文将从 Flink 的基本概念入手,了解 Flink 的设计理念、运行架构以及任务提交和调度的流程。旨在对 Flink 从整体上建立一个初步的认识。...
1. Overview 本文主要来自官网,旨在整理处 Flink SQL 的基本语法和使用,基础向。 2. API 调用 2.1 Old Planner VS Blink P...
1. Overview State 是 Flink 中一个非常基本且重要的概念,本文将介绍什么是 State,如何使用 State,State 的存储和原理。以及 State...
博主太监了?
OkHttp缓存原理分析先摆上学习得到的结论: 头信息是存储在.0文件中,body信息是存储在.1文件中,所有的操作记录在 journal日志文件中。 只有客户端而没有服务端的支持也是可以实现缓存的...
1. Overview 本文首先将介绍 Flink 的时间语义,然后介绍 Windows 的基本使用和概念,最后通过一个具体 demo 进行实战演练。 2. 时间语义 Spa...
1. Background Kafka 作为 Spark Streaming 数据的最重要的来源,官方为此专门提供了二者整合的 jar 包。这使得我们可以很方便的对接二者,但...
1. Overview 本文将介绍 Spark SQL 的基本概念和基本使用,并介绍自定义数据源和 catalyst 的基本概念。通过此文可以对 Spark SQL 建立一个...
1. Background Spark 中有两种共享变量,其中一个是累加器,另一个是广播变量。前者解决了 Spark 闭包导致的局限性,如果不使用则会造成错误。后者更多时候是...
1. Overview 本文将通过闭包的概念引出累加器,并介绍累加器的基本使用以及如何自定义累加器,文章最后将说明在使用累加器时需要注意的问题 2. Basic 2.1 理解...
1. Background 分区是 RDD 中最重要的概念之一,RDD 的五大属性中,第一个描述的便是分区: A list of partitions 分区也是后续很多重要概...
1. Background 当我们需要多次使用同一个 RDD 时,如果简单的调用 Action 操作,Spark 每次都会重算 RDD 以及它所有的依赖,此时需要用到持久化技...
1. Background 在数仓指标中,多维度分析是一种常见的需求。当多个维度不确定具体组合时,需要我们在 hive 层使用 group by cube 或者手动优化 gr...
1. Background: 生产中,数仓分层没有一个统一的规范,各家公司都有一套自己的逻辑。命名更是五花八门。但只要有一套适合业务的分层、建模逻辑并贯彻执行,对开发效率的提...
1. Background 在大数据领域,无论上层计算引擎采用的是什么,在存储过程中,压缩都是一个避不开的问题。合适的压缩选择可以降低存储成本、减少网络传输I/O。而错误的压...
1. Background 一句话概括 UDAF 的背景就是系统自带的聚合函数无法满足用户需求。 2. Basic 2.1 什么是 UDAF ? UDAF 即自定义聚合函数。...