Storm是一套流式的实时计算框架
Storm
集群主要是由一个主节点(master node)和一群工作节点(worker nodes)组成,通过zookeeper
集群进行协调;主节点通常运行在一个后台程序——
Nimbus
,用于响应分布在集群中的节点,分配任务和监测故障。工作节点同样会运行一个后台程序——Supervisor
,用于收听工作指派并基于要求运行工作进程。每个工作节点都是topology
中一个子集的实现。
各组件功能和特性
- Nimbus:
- 作为主节点,本身是无状态的,状态信息是由zookeeper存储(实现了高可用,当nimbus挂掉,可以找另外一个节点启动nimbus进程,状态信息从zookeeper获得)。
- 在nimbus进程失败后,可以快速重启恢复正常工作,不需要很长的时间来进行初始化和状态恢复。
- 接受客户端任务Topology的提交,然后把代码发布到zookeeper上,由supervisor到zookeeper上领取任务。
- 当nimbus从zookeeper得知有supervisor节点挂掉,可以将该节点的任务重新分配给其他子节点。
- Supervisor:
- 作为从节点
- 从zookeeper上获取nimbus分配的任务,负责启动和停止worker工作进程
自己的状态信息汇报到zookeeper上,然后由nimbus监控 - worker:负责启动和停止executor线程
- executor:真正执行任务task的线程。
-
zookeeper:存储nimbus和supervisor的状态信息,这样使storm集群保持无状态,具有高可用性。
- logviewer:负责storm集群中日志收集的进程,需要在每个supervisor节点上启动
整体架构图:
在Storm中,应用程序实现实时处理的逻辑被封装在Storm中的topology
中(逻辑的);
一个topology
是由一组Spout组件(数据源)
和Bolt组件(数据操作)
通过Stream Groupings
进行连接的图。
- Spout:在一个topology中产生源数据流的组件,从来源处读取数据并放入topology;
- Bolt:在一个topology中接受数据然后执行处理的组件;
- Stream Groupings:消息的分组方法。
Storm应用程序执行过程:
应用举例:
- 实时日志处理
- 实时统计系统
- 实时风控系统
- 实时推荐系统
- 信用卡欺诈分析