1、使用场景
信息流处理 Stream Processing
- 处理源源不断产生的消息,并将处理之后的结果存储到某个存储系统中去,典型的架构是Kafka + Storm + HBase(或redis)
连续计算 Continuous Computation
- Storm可进行连续查询并把结果及时反馈给客户端,比如把微博上的热门话题发送到浏览器上
分布式远程程序调用 Distributed RPC
- 用来处理并行密集查询,客户端向Storm提交一个查询请求和查询参数,Storm运行Topology并行处理,并将结果同步返回给客户端
在线机器学习
2、实际商业应用场景
一淘-实时分析系统pora
- 实时分析用户的属性,并反馈给搜索引擎。实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展现最贴近其当前需求的结果
携程-网站性能监控 - 实时分析系统监控携程网的网站性能。利用HTML5提供的performance标准获得可用的指标,并记录日志,Storm集群实时分析日志和入库;使用DRPC聚合成报表,通过历史数据对比等判断规则,触发预警事件
游戏行业 - 一个游戏新版本上线,通过storm收集游戏中的数据,运营或者开发者可以在上线后几秒钟得到持续不断更新的游戏监控报告和分析结果,然后马上针对游戏的参数和平衡性进行调整,这样就能够大大缩短游戏迭代周期,加强游戏的生命力
3、Storm特性
- 自由共享、开源的分布式实时计算系统
- 实时计算领域的Hadoop
- 编程模型简单,并且支持多种编程语音
- 高性能,低延迟
- 易扩展
- 容错
- 消息不丢失
4、Storm VS Hadoop
- Hadoop是hdfs是分布式文件存储系统,mapreduce + Yarn批量离线计算(批处理)
- Storm只是一个实时分布式计算框架,但可以读取HDFS上的文件进行批量计算,另外Storm可以运行在yarn上
- Storm是计算任务为Topology,除非人为移除(kill),否则会一直运行下去,而MapReduce数据处理完毕,就会停止
5、Storm VS Spark Streaming
- Storm 流式数据处理技术框架,真正的实时处理框架,针对数据,来一条记录就处理一次,ms毫秒级别
- Spark Streaming 实时数据分析框架,其实是微批数据处理框架,m秒级别
*批处理:时段跨度相对来说比较大,可以是 年/季度/月/星期/天/小时/分钟/秒
*实时处理:时间跨度非常小的批处理,通常是m秒级别,一秒的数据量可以非常大(GB,TB)
6、Storm架构体系
7、Storm组件
Nimbus
- 主节点,本身无状态
- 接收客户端任务Topology的提交,并负责在集群中分发代码,即Jar包
- 分配工作给从节点supervisor,注意不是直接分配,而是将任务发布到zookeeper上,由supervisor到zookeeper上领取任务(在Zookeeper相应的znode节点上写入任务分配信息,由supervisor查看这些znode上的任务分配信息,获取分配到的任务)
- 监控: 监听集群状态(从Zookeeper集群中相应znode上读取supervisor,worker进程的状态信息数据)
- 容错:当supervisor节点挂掉,由Nimbus将该节点上正在运行着的任务重新分配给其他supervisor执行
Supervisor
- 从节点
- 从Zookeeper上获取Nimbus分配的任务,负责启动和停止本机上worker进程来执行任务,worker的容错由Supervisor进程负责
- 需要定时将自己的运行状态信息(心跳信息)汇报到zookeeper上,由Nimbus监控(在Zookeeper相应的znode节点上写入心跳信息)
Worker
- 真正的执行任务的进程,负责启动executor线程来执行任务
- worker进程并不是常驻进程,不能通过手动启动
- 负责与其他worker之间进行数据传输
- 需要将自己的运行状态汇报到zookeeper上,由Nimbus监控
Executor
- 真正执行任务的线程(负责执行客户提交到Storm集群上任务中Task(spout/bolt)),由worker启动和停止
Zookeeper
- 存储任务调度信息、各节点状态信息、心跳
- 使Storm集群各节点保持无状态,这样具有高可靠性
- zk上storm各节点存储数据类型如下
UI
- storm web监控页面
- 在storm.yaml配置文件中通过配置ui.port参数指定web ui访问端口
- UI需要与Nimbus运行在同一台服务器上
Logviewer
- Storm集群任务运行过程中日志手机进程,需要在每个supervisor所在的节点上启动
Netty
- storm底层通信框架,替代了0.9版本之前的zeroMq
8、编程模型
-
Storm任务:Topology,称之为拓扑图,有向无环图(DAG)
Storm处理的数据结构——Stream、Tuple
数据流Stream是一个个tuple;
tuple元组是任意数据结构类型的键值对集合,(k1:v1,k2:v2,k3:v3),比如,(name:"zhangsan",age:"19",birthday:"1998-0910")Storm数据采集器 Spout
数据采集器,从数据源上获取数据,转成tuple发射到后面的bolt处理
常见的是KafkaSpout,从Kafka上获取数据记录Storm数据处理器 Bolt
数据处理器,顾名思义,在bolt里面实现数据的逻辑处理,可执行Filter过滤,functions函数操作,aggregate聚合,join组合,存储数据到数据库等操作Storm数据流分组 grouping
shuffleGrouping:随机分组,随机分发Stream中的tuple,保证后面每个Bolt接收Tuple数据大致一致;
fieldsGrouping :按字段分组,保证相同字段的tuple分配到同一个bolt 中;
globalGrouping:全局分组,所有的tuple都发送到同一个bolt中,此时一般将当前Component的并发数据设置为1;提交Topology
本地运行模式提交:LocalCluster.submitTopology
集群模式提交:StormSubmitter.submitTopology