240 发简信
IP属地:湖南
  • 120
    时间序列数据库 (TSDB)

    背景 2017年时序数据库忽然火了起来。开年2月Facebook开源了beringei时序数据库;到了4月基于PostgreSQL打造的时序数据库TimeScaleDB也开源...

  • Spark

    Spark core 一、 spark是一个分布式同通用计算框架,可用于离线大数据处理、实时流计算、交互式计算、图计算等,集成了SparkSQL、SparkStream、ML...

  • 120
    kafka原理及主要流程+Flume

    Kafka 一、Kafka是一个分布式消息队列系统,以集群方式存在。 优点:高吞吐率(每秒百万级);基于多分区多副本实现高容错,并发能力强;易扩展(增加blocker)等。 ...

  • 120
    Hive

    一、基本原理 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射成一张表,并提供类似SQL的查询功能。Hive适用于大数据离线批处理,不适合实时处理,分为...

  • 120
    Hadoop生态圈中的调度组件-YARN

    一、YARN:Hadoop集群中的同一资源调度系统。Hadoop2.0后引入,主要功能有:负责集群中资源的统一调度,响应客户端的请求。 优缺点 二、YARN核心组件及架构 1...

  • HDFS

    一、HDFS:hadoop分布式文件存储系统。 优点: 1. 基于多副本存储,实现高容错 2. 适合大数据离线批处理,移动计算,不移动数据,将数据位置暴露给计算框架,把计算任...

  • zookeeper搭建

    ZK,分布式应用间的协调调度机制,监听和管理分布式服务器间的连接。 一、 zk的数据结构——znode 每个Znode由3部分组成 :stat:此为状态信息, 描述该Znod...