【转载好文章】浅谈大数据监控分析平台

【分享一位大神的文章,从需求的角度看做大数据监控分析平台的必要、价值和意义】

传送门:http://www.sohu.com/a/113103514_398736

从三个层面论述对运维的意义:

1、工程数据,譬如工单数量,SLA 可用性,基础资源,故障率,报警统计

2、业务数据,譬如业务 DashBoard,Trace 调用链,业务拓扑切换,业务指标,业务基准数据,业务日志挖掘

3、数据可视化

当然,这篇文章谈的是运维都有哪些数据,哪些指标,以及数据呈现。并没有谈及如何和大数据相关的架构做整合,从而能让这些数据真的变得活起来。

上面的文字算引子,在步入正式的探讨前,有一点我觉得值得强调:

虽然这里讲的是如何将大数据思维/架构应用于运维,平台化运维工作,但是和大数据本质上没有关系,我们只是将大数据处理的方式和思想应用在运维工作上。所以,即使你现在所在的公司没有数据团队支撑,也是完全可以通过现有团队完成这件事情的。

1 运维监控现状

很多公司的运维的监控具有如下特质:

只能监控基础运维层次,通过 zabbit 等工具提供服务器,CPU,内存等相关的监控。这部分重要,但确实不是运维的核心。

对业务的监控是最复杂的,而现在很多公司的要么还处于 Shell 脚本的刀耕火种阶段,要么开发能力较强,但是还是东一榔头西一棒子,不同的业务需要不同的监控系统,人人都可以根据的自己的想法开发一个监控的工具也好,系统也好,平台也好。总之是比较凌乱的。

使用第三方的监控平台。这个似乎在 Rails/NodeJS/Pythone 相关语系开发的产品中比较常见。我不做过多评价,使用后冷暖自知。

当然也有抽象得很好的,比如点评网的运维监控据说就做得相当好,运维很闲,天天没事就根据自己的监控找开发的茬,让开发持续改进。不过他们的指导思想主要有两个:

运维自动化。怎么能够实现这个目标就怎么搞,这严重依赖于搞的人的规划能力和经验。

抽象化,根据实际面临的问题做出抽象,得到对应的系统,比如需要发布,于是又发布系统,需要管理配置文件,所以有配管系统,需要日志分析所以有了有日志分析系统。然而这样是比较零散的。

有点扯远,我们还是 focus 在监控上。

如果以大数据的思维去思考,我们应该如何做好监控这件事情?

2 罗列出你的数据源

所有的数据源都有一个共性,就是日志。无论文本的也好,二进制的也好。所以日志是整个信息的源头。日志包含的信息足以让我们追查到下面几件事情:

系统健康状况监控

查找故障根源

系统瓶颈诊断和调优

追踪安全相关问题

从日志我们可以挖掘出什么?

我觉得抽象起来就一个:指标

指标可以再进行分类:

业务层面,如团购业务每秒访问数,团购券每秒验券数,每分钟支付、创建订单等

应用层面,每个应用的错误数,调用过程,访问的平均耗时,最大耗时,95线等

系统资源层面,如 cpu、内存、swap、磁盘、load、主进程存活等

网络层面,如丢包、ping 存活、流量、tcp 连接数等

每个分类里的每个小点其实都是一个指标。

3 如何统一实现

千万不要针对具体问题进行解决,大数据架构上的一个思维就是:我能够提供一个平台让大家方便解决这些问题么? 而不是,这个问题我能解决么?

先来看看架构图:

img

因为目前我负责应用层的研发,业务还比较少,主要就需要监控三个系统:

1、推荐

2、搜索

3、统一查询引擎

所以监控的架构设计略简单些。如果你希望进行日志存储以及事后批量分析,则可以采用淘宝的这套架构方式:

img

稍微说明下,日志收集 Agent 可以使用 Flume,鹰眼 Storm 集群,其实就是 Storm 集群,当然有可能是淘宝内部 Java 版的,Storm(或第一幅图的 SparkStreaming)做两件事情。

将日志过滤,格式化,或存储起来

进行实时计算,将指标数据存储到 HBase 里去

到目前为止,我们没有做任何的开发,全部使用大数据里通用的一些组件。至于这些组件需要多少服务器,就看对应的日志量规模了,三五台到几百台都是可以的。

需要开发的地方只有两个点,有一个是一次性的,有一个则是长期。

先说说一次性的,其实就是大盘展示系统。这个就是从 HBase 里取出数据做展示。这个貌似也有开源的一套,ELK。不过底层不是用的 HBase 存储,而是 ES。这里就不详细讨论。

长期的则是 SparkStreaming(淘宝是使用 Storm,我建议用 SparkStreaming,因为 SparkStreaming 可以按时间窗口,也可以按量统一做计算),这里你需要定义日志的处理逻辑,生成我上面提到的各项指标。

这里有一个什么好处呢,就是平台化了,对新的监控需求响应更快了,开发到上线可能只要几个小时的功夫。如果某个系统某天需要一个新的监控指标,我们只要开发个 SparkStreaming 程序,丢到平台里去,这事就算完了。

第一幅图的平台我是已经实现了的。我目前在 SparkStreaming 上只做了三个方面比较基础的监控,不过应该够用了。

状态码大盘。HTTP 响应码的 URL(去掉 query 参数)排行榜。比如你打开页面就可以看到发生500错误的 top 100 的 URL,以及该 URL 所归属的系统。

响应耗时大盘。URL 请求耗时排行榜。比如你打开页面就可以看到5分钟内平均响应耗时 top 100 的 URL(去掉 query 参数)。

还有就是 Trace 系统。类似 Google 的 Dapper,淘宝的 EagleEye。给出一个唯一的 UUID,可以追踪到特定一个 Request 的请求链路。每个依赖服务的响应情况,比如响应时间。对于一个由几个甚至几百个服务组成的大系统,意义非常大,可以方便的定位出到底是那个系统的哪个 API 的问题。这个最大的难点是需要统一底层的 RPC/HTTP 调用框架,进行埋点。因为我使用的是自研的 ServiceFramework 框架,通讯埋点就比较简单。如果是在一个业务线复杂,各个系统使用不同技术开发,想要做这块就要做好心理准备了。

现在,如果你想要监控一个系统是不是存活,你不在需要取写脚本去找他的 pid 看进程是不是存在,系统发现在一定的周期内没有日志,就可以认为它死了。而系统如果有异常,比如有大量的慢查询,大盘一定能展示出来。

描述到这,我们可以看到,这套架构的优势在哪:

基本上没有需要自己开发的系统。从日志收集,到日志存储,到结果存储等,统统都是现成的组件。

可扩展性好。每个组件都是集群模式的,没有单点故障。每个组件都是可水平扩展的,日志量大了,加机器就好。

开发更集中了。你只要关注日志实际的分析处理,提炼指标即可。

4 大数据思维

对于运维的监控,利用大数据思维,需要分三步走:

1、找到数据

2、分析定义从数据里中我能得到什么

3、从大数据平台中挑选你要的组件完成搭积木式开发

所有系统最可靠的就是日志输出,系统是不是正常,发生了什么情况,我们以前是出了问题去查日志,或者自己写个脚本定时去分析。现在这些事情都可以整合到一个已有的平台上,我们唯一要做的就是 定义处理日志的的逻辑 。

这里有几点注意的:

如果你拥有复杂的产品线,那么日志格式会是一个很痛苦的事情。以为这中间 Storm(或者 SparkStreaming)的处理环节你需要做大量的兼容适配。我个人的意见是,第一,没有其他更好的办理,去兼容适配吧,第二,推动大家统一日志格式。两件事情一起做。我一个月做不完,那我用两年时间行么?总有一天大家都会有统一的日志格式的。

如果你的研发能力有富余,或者有大数据团队支撑,那么可以将进入到 SparkStreaming 中的数据存储起来,然后通过 SparkSQL 等做即席查询。这样,有的时候原先没有考虑的指标,你可以直接基于日志做多维度分析。分析完了,你觉得好了,需要固化下来,那再去更新你的 SparkStreaming 程序。

【说说自己的话:毕竟自己在公司也做了几个项目测试全是关于大数据监控,后面我也会做浅谈大数据入门的文章,让大家一起学习大数据,敬请期待!】

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容