Spark - 专题

投稿

Spark

收录了13篇文章 · 2人关注

presto简介
背景 MapReduce不能满足大数据快速实时adhoc查询计算的性能要求，Facebook2012年开发，2013年开源是什么基于内存的并...

1.1 翠花上酸奶 1 25
Apache Spark SQL自适应执行实践
SparkSQL是ApacheSpark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但...

麦子星星 0 0

JVM调优参考
java -Xms -Xmx -XX:PermSize -XX:MaxPermSize 在做java开发时尤其是大型软件开发时经常会遇到内存溢...

麦子星星 0 0
Spark海量数据去重策略
1.目标：尽可能在有限资源的情况下，利用尽量少的资源来达到更高效的效果。今天就给大家分享一个在DDT首页概览实时性能优化算法 – 海量数据高效去...

1.0 麦子星星 0 3
Spark作业并行度原则
1、Task数量，至少设置成与Spark application的总cpu core数量相同（最理想情况，比如总共150个cpu core，分配...

麦子星星 0 0
Spark广播变量存储读取机制
广播变量的读取比较复杂，首先读取端会尝试从本地BlockManager直接读取未切分的完整数据；如果不存在会尝试从本地BlockManager读...

麦子星星 0 0
Spark Streaming反压机制2
背景在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当...

0.1 麦子星星 0 2

Spark job 的执行流程简介
我们可以发现，Spark 应用程序在提交执行后，控制台会打印很多日志信息，这些信息看起来是杂乱无章的，但是却在一定程度上体现了一个被提交的 Sp...

麦子星星 0 0
Spark应用程序中设置日志输出级别
在Spark应用程序中设置日志输出级别我们通常会使用IDE（例如Intellij IDEA）开发Spark应用，而程序调试运行时会在控制台中打...

麦子星星 0 0
Spark应用程序之间调度
Spark程序之间调度资源分配策略分为两种情况：所谓分配，简单来说就是Spark集群管理器为每个Spark程序，调配分发集群中CPU和内存的使...

麦子星星 0 0