spark由浅入深 - 专题

投稿

spark由浅入深

收录了7篇文章 · 2人关注

Spark（四十一）数据倾斜解决方案之sample采样倾斜key进行两次join
一、背景这个方案的实现思路，跟大家解析一下：其实关键之处在于，将发生数据倾斜的key，单独拉出来，放到一个RDD中去；就用这个原本会倾斜的ke...

0.2 文子轩 0 3
Spark数据倾斜解决方案四：使用随机Key进行双重聚合
在使用reduceByKey，groupByKey算子时，都是针对PairRDD进行操作，那么，我们就可以PairRDD的每个元素的Key加上一...

0.1 hipeer 1 2

Spark Streaming优雅的关闭策略优化
前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。到目前为止还有...

0.6 尼小摩 1 9
spark stream冷启动处理kafka中积压的数据
因为首次启动JOB的时候，由于冷启动会造成内存使用太大，为了防止这种情况出现，限制首次处理的数据量 for example: 使用SparkSt...

0.7 尼小摩 0 5
Netty OutOfDirectMemoryError捉臭虫（bug）之旅
背景最近在做实时推荐项目，上线运行几天后发现部分服务器不可用，经过对日志分析发现一个关于Netty的堆外内存错误日志：因为项目中有一个定时任...

0.3 尼小摩 3 5
Kafka+Spark Streaming管理offset的两种方法
Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一，主要是用于数据实时入库或分析。为了应对可能出现的引起Streami...

3.0 LittleMagic 10 26
『 Spark 』5. 这些年，你不能错过的 spark 学习资源
原文链接：『 Spark 』5. 这些年，你不能错过的 spark 学习资源写在前面本系列是综合了自己在学习spark过程中的理解记录＋ ...

0.7 litaotao 5 89