_duangduang - 简书

IP属地：四川

Spark
Spark core 一、 spark是一个分布式同通用计算框架，可用于离线大数据处理、实时流计算、交互式计算、图计算等，集成了SparkSQL...

3903 0 1
kafka原理及主要流程+Flume
Kafka 一、Kafka是一个分布式消息队列系统，以集群方式存在。优点：高吞吐率（每秒百万级）；基于多分区多副本实现高容错，并发能力强；易扩...

0.2 13541 1 2

Hive
一、基本原理 Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射成一张表，并提供类似SQL的查询功能。Hive适用于大数据离...

168 0 1
Hadoop生态圈中的调度组件-YARN
一、YARN：Hadoop集群中的同一资源调度系统。Hadoop2.0后引入，主要功能有：负责集群中资源的统一调度，响应客户端的请求。优缺点 ...

1283 0 0
HDFS
一、HDFS：hadoop分布式文件存储系统。优点： 1. 基于多副本存储，实现高容错 2. 适合大数据离线批处理，移动计算，不移动数据，将数...

258 0 1
zookeeper搭建
ZK，分布式应用间的协调调度机制，监听和管理分布式服务器间的连接。一、 zk的数据结构——znode 每个Znode由3部分组成 :stat：...

662 0 0