IP属地:四川
Spark core 一、 spark是一个分布式同通用计算框架,可用于离线大数据处理、实时流计算、交互式计算、图计算等,集成了SparkSQL...
Kafka 一、Kafka是一个分布式消息队列系统,以集群方式存在。 优点:高吞吐率(每秒百万级);基于多分区多副本实现高容错,并发能力强;易扩...
一、基本原理 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射成一张表,并提供类似SQL的查询功能。Hive适用于大数据离...
一、YARN:Hadoop集群中的同一资源调度系统。Hadoop2.0后引入,主要功能有:负责集群中资源的统一调度,响应客户端的请求。 优缺点 ...
一、HDFS:hadoop分布式文件存储系统。 优点: 1. 基于多副本存储,实现高容错 2. 适合大数据离线批处理,移动计算,不移动数据,将数...
ZK,分布式应用间的协调调度机制,监听和管理分布式服务器间的连接。 一、 zk的数据结构——znode 每个Znode由3部分组成 :stat:...