何几时 - 简书

发简信

何几时

23
关注
2
粉丝
51
文章
9648

字数
3

收获喜欢
2

总资产

IP属地：广东

达微

Spark应用程序调试方法详解
简介 Spark是基于内存计算的开源分布式大数据计算框架。为了更好、更快地开发Spark应用程序，开发者不仅要掌握Spark的理论基础和实现原理，更需要掌握Spark应用程序...

6113 0 2 1
k_wzzc

Spark DataFrame中rollup和cube使用
我们平时在做报表的时候，经常会有各种分维度的汇总计算，在spark中我们最常用的就是groupBy操作，groupBy就是按照给定的字段名分组，后面接sum、count、av...

5451 1 4
k_wzzc

Scala 学习笔记
Scala 学习笔记 1.函数式编程函数式编程：函数式编程把函数当作一等公民，充分利用函数，支持函数的多种使用方式。在scala中，函数可以像变量一样，既可以作为函数的参数...

506 0 1
pcqlegend

Spark Repartition 使用
看到一些同学的Spark代码中包含了很多repartition的操作，有一些不是很合理，非但没有增加处理的效率，反而降低了性能。这里做一个介绍。 repartition 从字...

50428 0 17
由木人_番茄

理解Spark中Job-Stage-Task之间的关系
Spark-Job-Stage-Task之间的关系基本概念在开始之前需要先了解Spark中Application，Job，Stage等基本概念，官方给出的解释如下表： J...

11847 3 18
做测试的DanteYu

Fake data的使用和产生 - Python篇
什么是Fake data Fake data顾名思义假数据，是在真实产品数据无法使用的情况下，产生地接近于产品环境的数据，多用于开发和测试。 Fake data的使用场景有...

9135 1 4
飞跑的蛤蟆

vscode snippets配置python头部注释
首先点击右下角的管理（齿轮形状的），选择其中的用户代码片段选择现有的python代码片段python.json 然后添加以下内容使用方法：在代码的头部输入header按回...

2959 1 1