spark生态系统 - 专题

投稿

spark生态系统

收录了51篇文章 · 23人关注

spark管理平台支持多用户
问题背景笔者所在的部门属于公司的大数据架构部，现主要参与公司流式计算平台的推广，个人负责spark的平台维护、特性定制、线上问题修改等。为了方...

0.1 liujianhuiouc 0 1
Spark DataFrame使用问题记录：insertInto引起大量文件问题
1 问题描述最近工作中有使用到spark sql的DataFrameWriter.insertInto函数往Hive表插入数据。在一次测试中，...

0.1 旺旺鸽不鸽 0 2

如何避免Spark SQL做数据导入时产生大量小文件
什么是小文件？生产上，我们往往将Spark SQL作为Hive的替代方案，来获得SQL on Hadoop更出色的性能。因此，本文所讲的是指存...

1.8 Kent_Yao 12 16
Spark on Yarn 为什么出现内存超界container被kill
一个Executor对应一个JVM进程。从Spark的角度看，Executor占用的内存分为两部分：ExecutorMemory和Memory...

这个该叫什么呢 4 2
Spark 数据读取冷启动优化分析
有时候会发现即使是读取少量的数据，启动延时可能也非常大，针对该现象进行分析，并提供一些解决思路。背景 Spark 一次查询过程可以简单抽象为 ...

0.3 breeze_lsw 0 2
Spark HiveThriftServer2启动流程源码分析
背景接触SparkSQL不久，查找了些别人的资料，感觉对整个Spark HiveThriftServer2流程讲的糊里糊涂的，觉得需要从Bee...

0.7 分裂四人组 0 4
Spark - 动态注册UDF
昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark*...

1.3 大猪大猪 7 38

基于SparkSQL实现的一套即席查询服务
IQL (项目地址：https://github.com/teeyog/IQL) English | 简体中文基于SparkSQL实现了一套即...

4.0 BIGUFO 7 23
Spark2.1和2.2 SQL物理执行策略关键源码分析
1. 文章开始之前先附上一句SQL，使用tpc-ds的表结构，我们围绕这句SQL讲。 SQL： SQL> selectavg(cs_ext_d...

0.1 orisonchan 0 9
Spark聚合下推思路以及demo
Spark原本预计在2.3版本实现聚合下推，虽然不知道是何原因最终没有能够在2.3版本最终实现，但是因为工作需要，必须要从聚合函数下手优化Spa...

0.4 orisonchan 2 11