简介 Spark是基于内存计算的开源分布式大数据计算框架。为了更好、更快地开发Spark应用程序,开发者不仅要掌握Spark的理论基础和实现原理,更需要掌握Spark应用程序...
IP属地:广东
简介 Spark是基于内存计算的开源分布式大数据计算框架。为了更好、更快地开发Spark应用程序,开发者不仅要掌握Spark的理论基础和实现原理,更需要掌握Spark应用程序...
我们平时在做报表的时候,经常会有各种分维度的汇总计算,在spark中我们最常用的就是groupBy操作,groupBy就是按照给定的字段名分组,后面接sum、count、av...
Scala 学习笔记 1.函数式编程 函数式编程:函数式编程把函数当作一等公民,充分利用函数,支持函数的多种使用方式。在scala中,函数可以像变量一样,既可以作为函数的参数...
看到一些同学的Spark代码中包含了很多repartition的操作,有一些不是很合理,非但没有增加处理的效率,反而降低了性能。这里做一个介绍。 repartition 从字...
Spark-Job-Stage-Task之间的关系 基本概念 在开始之前需要先了解Spark中Application,Job,Stage等基本概念,官方给出的解释如下表: J...
什么是Fake data Fake data顾名思义假数据,是在真实产品数据无法使用的情况下,产生地接近于产品环境的数据,多用于开发和测试。 Fake data的使用场景 有...
首先点击右下角的管理(齿轮形状的),选择其中的用户代码片段 选择现有的python代码片段python.json 然后添加以下内容 使用方法:在代码的头部输入header按回...