240 发简信
IP属地:四川
  • Spark

    Spark core 一、 spark是一个分布式同通用计算框架,可用于离线大数据处理、实时流计算、交互式计算、图计算等,集成了SparkSQL...

  • Resize,w 360,h 240
    kafka原理及主要流程+Flume

    Kafka 一、Kafka是一个分布式消息队列系统,以集群方式存在。 优点:高吞吐率(每秒百万级);基于多分区多副本实现高容错,并发能力强;易扩...

  • Resize,w 360,h 240
    Hive

    一、基本原理 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射成一张表,并提供类似SQL的查询功能。Hive适用于大数据离...

  • Resize,w 360,h 240
    Hadoop生态圈中的调度组件-YARN

    一、YARN:Hadoop集群中的同一资源调度系统。Hadoop2.0后引入,主要功能有:负责集群中资源的统一调度,响应客户端的请求。 优缺点 ...

  • HDFS

    一、HDFS:hadoop分布式文件存储系统。 优点: 1. 基于多副本存储,实现高容错 2. 适合大数据离线批处理,移动计算,不移动数据,将数...

  • zookeeper搭建

    ZK,分布式应用间的协调调度机制,监听和管理分布式服务器间的连接。 一、 zk的数据结构——znode 每个Znode由3部分组成 :stat:...