前言 之前本来有一个个人博客,但是因为太懒没有维护,就来投奔CSDN了。这几天突然一时兴起,让好好弄一下自己的个人博客,因为CSDN的广告实在是...
前言 在使用Spark-shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。 解决方法 - 使用自定...
前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用...
前言 如果你程序中的聚合速度较慢,请先查看 Spark Stragglers/任务执行缓慢部分。 主要症状 在执行 groupby 操作时,任务...
什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spark的基本数据结构。它是一个不可...
前言 在我们提交spark程序时,应该如何为Spark集群配置--num-executors, - executor-memory和--exe...
什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即...
前言 学习Spark源代码的过程中遇到了Typed transformations和Untyped transformations两个概念,整理...
Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业。 构建作业DAG后,Spark将这些任务分配到多个Executor上...