欢迎关注公众号“Tim在路上”通常为提高数据处理的效率,计算引擎要实现谓词的下推,而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还...
欢迎关注公众号“Tim在路上”通常为提高数据处理的效率,计算引擎要实现谓词的下推,而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还...
欢迎关注公众号“Tim在路上”刚刚结束的Data + AI summit上,Databricks宣布将Delta Lake全部开源。 目前在LakeHouse的市场上国内有H...
欢迎关注公众号“Tim在路上”今天来闲谈下数据湖三剑客中的iceberg。 Iceberg项目2017年由Netflix发起, 它是在2018年被Netflix捐赠给Apac...
欢迎关注公众号“Tim在路上” Spark 3.2为spark shuffle带来了重大的改变,其中新增了push-based shuffle机制。但其实在push-base...
欢迎关注公众号“Tim在路上”在Spark3.2中引入了领英设计的一种新的shuffle方案,今天我们先来了解下其大致的设计原理,之后会再分析其具体的代码实现。 当我们在Ya...
欢迎关注公众号“Tim在路上”在讨论external shuffle service的具体实现之前,我们先来回顾下spark shuffle的大概过程。 spark shuf...
欢迎关注公众号“Tim在路上” 在Spark中shuffleWriter有三种实现,分别是bypassMergeSortShuffleWriter, UnsafeShuffl...
欢迎关注微信公众号“Tim在路上”之前我们已经了解了shuffle writer的详细过程,那么生成文件后会发生什么呢?以及它们是如何被读取呢?读取是内存的操作吗?这些问题也...
欢迎关注微信公众号“Tim在路上”Unsafe Shuffle的实现在一定程度上是Tungsten内存管理优化的的主要应用场景。其实现过程实际上和SortShuffleWri...
欢迎关注公众号“Tim在路上”在说UnsafeShuffleWriter 前,需要先细谈下Tungsten对内存管理的优化。当然这里就不展开讲了以防内容过于冗长。 Tungs...
欢迎关注公众号 “Tim在路上”SortShuffleWriter 是最基础的ShuffleWriter, 当其他几个ShuffleWriter不满足条件,或存在mapSid...
欢迎关注公众号 “Tim在路上”BypassMergeSortShuffleWriter 就如其名,旁支的sort-baesd Shuffle, 他是采用Hash-style...
一提到shuffle, 我们犹如“谈虎色变”。shuffle是大数据中的性能杀手,其来源于大数据中的元老级的组件Hadoop。 在Hadoop组件中定义的Shuffle包括了...
Spark netty RPC 通信原理 通信是分布式程序的血液和神经,就好比大脑发出的执行需要通过神经和需要才能传递到手脚进行执行。可见好的通信能力是分布式系统的重重之中。...
在spark分布式程序中,sparkConf 主要起着Spark程序进行资源配置,性能调优,功能开关,参数传递的能力。在Spark的Driver和Executor中都存在着S...
Spark RDD 分布式弹性数据集 rdd是一种弹性分布式的数据集,它代表着不可变的数据元素,可以被分区并行处理。 rdd是一个粗粒度的数据生成方式和流转迭代计算方式的描述...
算法:二叉树遍历类题目 树的遍历顺序是依赖于 根 节点的位置,前序遍历的顺序为 根左右,中序遍历的顺序为 左根右,后序遍历的顺序为 左右根。除此以外还存在层次遍历。 在树类算...