240 发简信
IP属地:上海
  • 调度系统中不同周期任务依赖的方法(1)

    背景 在调度系统中存在很多定时执行的任务,这些任务有不同的执行周期,比如有每分钟、每小时、每天执行一次的,也有可能是半天执行一次的,且这些任务之间需要建立依赖关系,组成一个数...

  • 120
    clickhouse + chproxy 集群搭建

    集群规划 集群架构 其中 Distribute 是指创建分布式表的机器,在此文章中是将 Distribute 单独部署的,也可以将 Distribute 角色划分到每个 Re...

  • @FinalFantasyXX 哈哈 被apache喂胖了 思路是这样 可以自己试着实现

    饿了么元数据管理实践之路

    大数据挑战 多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化? 任务、表、列、指标等数据,如何进行检索、复用、清理、热度Top计算? 怎样对表、列、指...

  • 120
    Apache Flink源码解析 (五)DataStream API

    概述 这篇文章是但不仅仅是官方文档的中文翻译,还有里面每一个方法对应的Transformation和运行时对Task的影响。 Prerequisites 关于算子想说的有很多...

  • 饿了么元数据管理实践之路

    大数据挑战 多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化? 任务、表、列、指标等数据,如何进行检索、复用、清理、热度Top计算? 怎样对表、列、指...

  • Dr.Elephant源码分析--MapReduce

    Job日志 mapred-site.xml配置任务执行日志路径(hdfs) 作业启动时,hadoop会将作业信息放在${yarn.app.mapreduce.am.stagi...

  • 加油:+1:

    BroadcastManager--SparkEnv

    Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 ...

  • BroadcastManager--SparkEnv

    Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 ...

  • SerializerManager--SparkEnv

    SparkEnv中有两个序列化的组件,分别是SerializerManager和closureSerializer SerializerManager集成序列化、压缩、加密的...

  • 120
    度量系统--Metrics

    Spark的度量系统有以下几部分,也可以参照MetricsSystem类的注释部分 Instance: 数据实例。Spark的Instance有Master、Worker、A...

  • 120
    事件总线--ListenerBus

    Spark中很多组件都是靠RPC、事件消息机制实现通信的。前者解决远程通信问题,后者则是本地较为高效的通信方式 定义ListenerBus Spark定义了一个trait的L...

  • 120
    彻底理解ThreadLocal

    ThreadLocal的作用是提供一个线程的局部变量,比如context、session。是直接把某个对象在各自线程中实例化一份,每个线程都有属于自己的该对象。ThreadL...

  • 用Optional取代null

    创建Optional对象 Optional.empty():声明一个空Optional Optional.of():依据一个非空值创建Optional Optional.of...

  • Function、Predicate、Consumer、Supplier接口

    这些接口都有一个@FunctionalInterface注解,表明这个接口将是一个函数式接口,里面只能有一个抽象方法 Function Function<T, R> => R...

  • 120
    Netty浅析

    IO模型 IO多路复用模式:Reactor、Proactor NIO实现的是Reactor模式。通过select、epoll函数,用户可以一个线程同时处理多个Channel的...