Flume像个情报员,负责把情报(日志)拿到手交给负责接头的信息员Kafka运送回来,处长HDFS负责接收这些数据,指挥NameNode给它们起好名字并贴上标签,交给档案馆Hbase存起来;这些数据还可以通过情报分析站MapReduce去做复杂的深度加工,加工好的结论也可以交给Hbase存起来。而想要使用MapReduce需要通过工具Hive去实现。虽然Hbase是个超大的档案馆,MapReduce也能为这个超大的档案馆提供更多结果,但若是急需这些情报采取行动(需要实时输出这些数据),它们的效率就显得有点慢。这时Kafka可以使用应急流程,把数据直接交给独立调查员Storm做实时分析,分析好了交给临时档案馆Redis存起来,领导(前端页面)可以去找Redis查阅结果。可惜的是,Storm和Redis虽然效率很高,却没有Hbase这个档案馆那么庞大和稳定,工资(成本)又太高,至今只能打一打下手,做一些补充工作。
以上是之前从其他地方看来的的关于大数据产品中各种组件的一些作用,使用这种形象的举例,帮助我们不太懂技术的产品,去记住各种大数据组件的用途。我们不必要去追求对这些技术的掌握,只要在开发之间沟通时,能大致了解说到的是什么内容,不会犯迷糊即可。