xiaoc024 - 简书

发简信

xiaoc024

1
关注
5
粉丝
14
文章
29264

字数
1

收获喜欢
1

总资产

IP属地：湖北

xiaoc024

Flink 架构初探
1. Overview 本文将从 Flink 的基本概念入手，了解 Flink 的设计理念、运行架构以及任务提交和调度的流程。旨在对 Flink 从整体上建立一个初步的认识。...

397 0 0
xiaoc024

Flink SQL 入门指北
1. Overview 本文主要来自官网，旨在整理处 Flink SQL 的基本语法和使用，基础向。 2. API 调用 2.1 Old Planner VS Blink P...

2563 0 0

xiaoc024

Flink 之 State
1. Overview State 是 Flink 中一个非常基本且重要的概念，本文将介绍什么是 State，如何使用 State，State 的存储和原理。以及 State...

3780 0 0
xiaoc024

博主太监了？

OkHttp缓存原理分析
先摆上学习得到的结论：头信息是存储在.0文件中，body信息是存储在.1文件中，所有的操作记录在 journal日志文件中。只有客户端而没有服务端的支持也是可以实现缓存的...

annaoo
1714 1 1
xiaoc024

Flink 之 Window
1. Overview 本文首先将介绍 Flink 的时间语义，然后介绍 Windows 的基本使用和概念，最后通过一个具体 demo 进行实战演练。 2. 时间语义 Spa...

532 0 0
xiaoc024

Spark Streaming 对接 Kafka 的那些事儿
1. Background Kafka 作为 Spark Streaming 数据的最重要的来源，官方为此专门提供了二者整合的 jar 包。这使得我们可以很方便的对接二者，但...

823 0 0
xiaoc024

Spark SQL 入门指北
1. Overview 本文将介绍 Spark SQL 的基本概念和基本使用，并介绍自定义数据源和 catalyst 的基本概念。通过此文可以对 Spark SQL 建立一个...

200 0 0

xiaoc024

Spark 之广播变量
1. Background Spark 中有两种共享变量，其中一个是累加器，另一个是广播变量。前者解决了 Spark 闭包导致的局限性，如果不使用则会造成错误。后者更多时候是...

1015 0 0
xiaoc024

annaoo
写了 7046 字，被 2 人关注，获得了 1 个喜欢

知识常分享常新
xiaoc024

Spark 之累加器
1. Overview 本文将通过闭包的概念引出累加器，并介绍累加器的基本使用以及如何自定义累加器，文章最后将说明在使用累加器时需要注意的问题 2. Basic 2.1 理解...

644 0 0
xiaoc024

Spark RDD 之分区
1. Background 分区是 RDD 中最重要的概念之一，RDD 的五大属性中，第一个描述的便是分区： A list of partitions 分区也是后续很多重要概...

1368 1 1
xiaoc024

Spark RDD 之持久化
1. Background 当我们需要多次使用同一个 RDD 时，如果简单的调用 Action 操作，Spark 每次都会重算 RDD 以及它所有的依赖，此时需要用到持久化技...

895 0 0

xiaoc024

Kylin 入门指北
1. Background 在数仓指标中，多维度分析是一种常见的需求。当多个维度不确定具体组合时，需要我们在 hive 层使用 group by cube 或者手动优化 gr...

589 0 0
xiaoc024

浅谈数仓分层
1. Background: 生产中，数仓分层没有一个统一的规范，各家公司都有一套自己的逻辑。命名更是五花八门。但只要有一套适合业务的分层、建模逻辑并贯彻执行，对开发效率的提...

1987 0 0
xiaoc024

Hadoop 压缩从理论到实战
1. Background 在大数据领域，无论上层计算引擎采用的是什么，在存储过程中，压缩都是一个避不开的问题。合适的压缩选择可以降低存储成本、减少网络传输I/O。而错误的压...

1423 0 0
xiaoc024

Hive 之 UDAF
1. Background 一句话概括 UDAF 的背景就是系统自带的聚合函数无法满足用户需求。 2. Basic 2.1 什么是 UDAF ? UDAF 即自定义聚合函数。...

3835 0 0
xiaoc024

暂无个人介绍