Tim在路上 - 简书

发简信

Tim在路上

87
关注
872
粉丝
300
文章
482242

字数
1325

收获喜欢
335

总资产

IP属地：北京

Tim在路上

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程
欢迎关注公众号“Tim在路上”通常为提高数据处理的效率，计算引擎要实现谓词的下推，而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还...

442 0 1
Tim在路上

[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构
欢迎关注公众号“Tim在路上”刚刚结束的Data + AI summit上，Databricks宣布将Delta Lake全部开源。目前在LakeHouse的市场上国内有H...

831 0 2

Tim在路上

[LakeHouse] 数据湖之Iceberg一种开放的表格式
欢迎关注公众号“Tim在路上”今天来闲谈下数据湖三剑客中的iceberg。 Iceberg项目2017年由Netflix发起，它是在2018年被Netflix捐赠给Apac...

1023 0 1
Tim在路上

[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析
欢迎关注公众号“Tim在路上” Spark 3.2为spark shuffle带来了重大的改变，其中新增了push-based shuffle机制。但其实在push-base...

353 0 1
Tim在路上

[SPARK][CORE] 面试问题之谈一谈Push-based shuffle
欢迎关注公众号“Tim在路上”在Spark3.2中引入了领英设计的一种新的shuffle方案，今天我们先来了解下其大致的设计原理，之后会再分析其具体的代码实现。当我们在Ya...

721 0 1
Tim在路上

[SPARK][CORE] 面试问题之什么是 external shuffle service？
欢迎关注公众号“Tim在路上”在讨论external shuffle service的具体实现之前，我们先来回顾下spark shuffle的大概过程。 spark shuf...

845 0 1
Tim在路上

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（下）
欢迎关注公众号“Tim在路上” 在Spark中shuffleWriter有三种实现，分别是bypassMergeSortShuffleWriter, UnsafeShuffl...

201 0 1

Tim在路上

Spark
小黄鸭_ 编，88 篇文章，6 人关注

spark相关
Tim在路上

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（上）
欢迎关注微信公众号“Tim在路上”之前我们已经了解了shuffle writer的详细过程，那么生成文件后会发生什么呢？以及它们是如何被读取呢？读取是内存的操作吗？这些问题也...

532 0 5
Tim在路上

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（下）
欢迎关注微信公众号“Tim在路上”Unsafe Shuffle的实现在一定程度上是Tungsten内存管理优化的的主要应用场景。其实现过程实际上和SortShuffleWri...

195 0 1
Tim在路上

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（上）
欢迎关注公众号“Tim在路上”在说UnsafeShuffleWriter 前，需要先细谈下Tungsten对内存管理的优化。当然这里就不展开讲了以防内容过于冗长。 Tungs...

352 0 1
Tim在路上

[SPARK][CORE] 面试问题之 SortShuffleWriter的实现详情 - 草稿
欢迎关注公众号 “Tim在路上”SortShuffleWriter 是最基础的ShuffleWriter, 当其他几个ShuffleWriter不满足条件，或存在mapSid...

206 0 1

Tim在路上

[SPARK][CORE] 面试问题之 BypassMergeSortShuffleWriter的细节
欢迎关注公众号 “Tim在路上”BypassMergeSortShuffleWriter 就如其名，旁支的sort-baesd Shuffle, 他是采用Hash-style...

195 0 1
Tim在路上

[SPARK][CORE] 面试问题之 Spark Shuffle概述
一提到shuffle, 我们犹如“谈虎色变”。shuffle是大数据中的性能杀手，其来源于大数据中的元老级的组件Hadoop。在Hadoop组件中定义的Shuffle包括了...

229 0 2
Tim在路上

Spark netty RPC 通信原理
Spark netty RPC 通信原理通信是分布式程序的血液和神经，就好比大脑发出的执行需要通过神经和需要才能传递到手脚进行执行。可见好的通信能力是分布式系统的重重之中。...

715 0 1
Tim在路上

Spark源码精读分析计划
LittleMagic 编，38 篇文章，130 人关注
Tim在路上

LittleMagic
写了 497005 字，被 35584 人关注，获得了 4850 个喜欢

本博客所有内容均适用知识共享-署名-相同方式共享（CC-BY-SA）4.0协议。

Tim在路上

SparkConf 配置与传播
在spark分布式程序中，sparkConf 主要起着Spark程序进行资源配置，性能调优，功能开关，参数传递的能力。在Spark的Driver和Executor中都存在着S...

324 0 4
Tim在路上

Spark RDD 分布式弹性数据集
Spark RDD 分布式弹性数据集 rdd是一种弹性分布式的数据集，它代表着不可变的数据元素，可以被分区并行处理。 rdd是一个粗粒度的数据生成方式和流转迭代计算方式的描述...

505 0 1
Tim在路上

算法：二叉树遍历类题目
算法：二叉树遍历类题目树的遍历顺序是依赖于根节点的位置，前序遍历的顺序为根左右，中序遍历的顺序为左根右，后序遍历的顺序为左右根。除此以外还存在层次遍历。在树类算...

288 0 0

简书创作者

个人介绍

抓住生活的蝉

欢迎关注公众号：Tim在路上
欢迎关注知乎账号：天天来了