通过对spark core的核心概念学习,可以更好的了解spark的运行机制和生命周期 基本概念: Application: spark应用程...
操作场景 SQL语句转化为具体执行计划是由SQL查询编译器决定的,同一个SQL语句可以转化成多种物理执行计划,如何指导编译器选择效率最高的执行计...
使用 mapPartitions,按每个分区计算结果 如果每条记录的开销太大,例: rdd.map{x=>conn=getDBConn;conn...
操作场景 Spark onYARN模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行...
操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分...
操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他E...
操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadc...
操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达...
操作场景 Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collecti...