withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...
withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...
上周调优一个job 的时候发现一个join 意外的耗时间,如图上一个join的shuffle操作就耗时1.2h. Input 才91GB, s...
上周在调优一个job ,发现spark history 出现一个重复出现的job , 这个job 写着Listing leaf files a...
背景 开源产品要想用的得心应手免不了要根据公司的业务/场景对其做一些改造,如果直接在源码的层面对其修改,当下可能用的很省心,但后期与社区代码的合...
Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。该功...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, D...
对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。 背景 此文是关于公司在 Delta Lake 上线之前对Spar...
上週跑spark job 遇到 這樣一個語句 select cc_base_part1.*,cc_base_part1.nsf_cards_ra...
有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark 一次查询过程可以简单抽象为 ...
背景 在生产环境中,为了提高任务提交的响应速度,我们研发了类似 Spark Jobserver 的服务,各种类型的 spark 任务复用已经启动...
专题公告
Spark 及其生态的一些优化与实践