问题背景 笔者所在的部门属于公司的大数据架构部,现主要参与公司流式计算平台的推广,个人负责spark的平台维护、特性定制、线上问题修改等。为了方...
问题背景 笔者所在的部门属于公司的大数据架构部,现主要参与公司流式计算平台的推广,个人负责spark的平台维护、特性定制、线上问题修改等。为了方...
1 问题描述 最近工作中有使用到spark sql的DataFrameWriter.insertInto函数往Hive表插入数据。在一次测试中,...
什么是小文件? 生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存...
一个Executor对应一个JVM进程。 从Spark的角度看,Executor占用的内存分为两部分:ExecutorMemory和Memory...
有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark 一次查询过程可以简单抽象为 ...
背景 接触SparkSQL不久,查找了些别人的资料,感觉对整个Spark HiveThriftServer2流程讲的糊里糊涂的,觉得需要从Bee...
昨天有位大哥问小弟一个Spark问题,他们想在不停Spark程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,Spark*...
IQL (项目地址:https://github.com/teeyog/IQL) English | 简体中文 基于SparkSQL实现了一套即...
1. 文章开始之前 先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。 SQL: SQL> selectavg(cs_ext_d...
Spark原本预计在2.3版本实现聚合下推,虽然不知道是何原因最终没有能够在2.3版本最终实现,但是因为工作需要,必须要从聚合函数下手优化Spa...
专题公告
进步源于分享…