背景 在调度系统中存在很多定时执行的任务,这些任务有不同的执行周期,比如有每分钟、每小时、每天执行一次的,也有可能是半天执行一次的,且这些任务之间需要建立依赖关系,组成一个数...
背景 在调度系统中存在很多定时执行的任务,这些任务有不同的执行周期,比如有每分钟、每小时、每天执行一次的,也有可能是半天执行一次的,且这些任务之间需要建立依赖关系,组成一个数...
集群规划 集群架构 其中 Distribute 是指创建分布式表的机器,在此文章中是将 Distribute 单独部署的,也可以将 Distribute 角色划分到每个 Re...
@FinalFantasyXX 哈哈 被apache喂胖了 思路是这样 可以自己试着实现
饿了么元数据管理实践之路大数据挑战 多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化? 任务、表、列、指标等数据,如何进行检索、复用、清理、热度Top计算? 怎样对表、列、指...
概述 这篇文章是但不仅仅是官方文档的中文翻译,还有里面每一个方法对应的Transformation和运行时对Task的影响。 Prerequisites 关于算子想说的有很多...
大数据挑战 多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化? 任务、表、列、指标等数据,如何进行检索、复用、清理、热度Top计算? 怎样对表、列、指...
Job日志 mapred-site.xml配置任务执行日志路径(hdfs) 作业启动时,hadoop会将作业信息放在${yarn.app.mapreduce.am.stagi...
加油
BroadcastManager--SparkEnvBroadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 ...
Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 ...
SparkEnv中有两个序列化的组件,分别是SerializerManager和closureSerializer SerializerManager集成序列化、压缩、加密的...
Spark的度量系统有以下几部分,也可以参照MetricsSystem类的注释部分 Instance: 数据实例。Spark的Instance有Master、Worker、A...
Spark中很多组件都是靠RPC、事件消息机制实现通信的。前者解决远程通信问题,后者则是本地较为高效的通信方式 定义ListenerBus Spark定义了一个trait的L...
ThreadLocal的作用是提供一个线程的局部变量,比如context、session。是直接把某个对象在各自线程中实例化一份,每个线程都有属于自己的该对象。ThreadL...
创建Optional对象 Optional.empty():声明一个空Optional Optional.of():依据一个非空值创建Optional Optional.of...
这些接口都有一个@FunctionalInterface注解,表明这个接口将是一个函数式接口,里面只能有一个抽象方法 Function Function<T, R> => R...
IO模型 IO多路复用模式:Reactor、Proactor NIO实现的是Reactor模式。通过select、epoll函数,用户可以一个线程同时处理多个Channel的...