StatsD Metric

Why StatsD

在很多系统中,大家都能看到metric的踪影,我们通过监控metric的变化,就可能知道当前系统运行的状况。

Metric的方案有很多,譬如著名的prometheusstatsd等,也可以自己造轮子,毕竟通用的metric types也就那么几种,用好了足够用来监控系统了。

Etcd使用的是prometheus,看名字就知道很是cool的一个系统,笔者之前使用Etcd的时候碰到了一个超时问题,通过Etcd的metric发现是当前磁盘IO负载太高,使得Etcd的fsync太慢,从而导致请求超时的。

因为metric很重要,所以我们也决定在项目中引入metric。最开始,我们想的是直接使用memory的metric解决方案,但Etcd的团队推荐我们使用prometheus,可是这玩意并没有rust的client,于是我们就选择了另一个流行的解决方案StatsD。主要几个原因:

  • 协议简单外面可以非常方便的对接使用,rust也有相关的library。
  • 使用UDP,速度快,client这边即使频繁发送,也不会降低系统性能。
  • StatsD还支持多种backend,我们可以将StatsD收集到的信息转发到其他的系统譬如graphite,influxdb,prometheus上面。

Usage StatsD

StatsD的使用非常简单,因为是node.js的,所以我们需要先安装好node环境,然后写好一个配置文件,直接启动就可以了,一个简单的配置文件:

{
  port: 8125
, backends: [ "./backends/console" ]
, console: { prettyprint: true }
}

这里,我们使用默认的8125 UDP端口,backend使用的是console,也就是StatsD会将收集到的metrics汇总输出到console上面,既然是console,那就prettyprint一下,好看一点 :-)

启动好StatsD之后,我们就可以通过nc简单使用了:

echo "foo:1|c" | nc -w 1 -u 127.0.0.1 8125

上面的例子中,我们发送了一个counter,metric的名字是foo,StatsD收到这条metric之后,会查看当前是不是已经有该foo的metric,并将对应的值加1,如果没有,则默认从0开始。

可以看到,metric的协议格式是非常简单的,如下:

<metricname>:<value>|<type>

也就是对于一个metric来说,我们只要想好他的名字以及对应的类型,然后发实际的数据给StatsD就可以了。

Metric Types

Counting

最简单的metric应该就是counter,也就是通常的计数功能,StatsD会将收到的counter value累加,然后在flush的时候输出,并且重新清零。所以我们用counter就能非常方便的查看一段时间某个操作的频率,譬如对于一个HTTP服务来说,我们可以使用counter来统计request的次数,finish这个request的次数以及fail的次数。

Gauges

不同于Counter,Gauge在下次flush的时候是不会清零的,另外,gauge通常是在client进行统计好在发给StatsD的,譬如, capacity:100|g 这样的gauge,即使我们发送多次,在StatsD里面,也只会保存100,不会学counter那样进行累加。

但我们可以通过显示的加入符号来让StatsD帮我们进行累加,譬如:

capacity:+100|g
capacity:-100|g

假设我们原来的capacity gauge的值为100,经过上面的操作之后,gauge仍然是100。

如果我们需要记录当前的总用户数,或者CPU,Memory的usage,使用gauge就是一个不错的选择。

Sets

Set用来计算某个metric unique事件的个数,譬如对于一个接口,可能我们想知道有多少个user访问了,我们可以这样:

request:1|s
request:2|s
request:1|s

StatsD就会展示这个request metric只有1,2两个用户访问了。

Timing

最后再来说timing,timing顾名思义,就是记录某个操作的耗时,譬如:

foo:100|ms

上面的例子中,完成foo这个操作花费了100ms,但仅仅是记录这个操作的耗时,并不能让我们很好的知道当前系统的情况,所以通常,timing都是跟histogram一起来使用的。

在StatsD里面,配置histogram很简单,例如:

histogram: [ { metric: '', bins: [10, 100, 1000, 'inf']} ]

在上面的例子中,我们开启了histogram,这个histogram的bin的间隔是[-inf, 10ms),[10ms - 100ms), [100ms - 1000ms), 以及[1000ms, +inf),如果一个timing落在了某个bin里面,相应的bin的计数就加1,譬如:

foo:1|ms
foo:100|ms
foo:1|ms
foo:1000|ms

那么StatsD在console就会显示:

histogram: { bin_10: 2, bin_100: 0, bin_1000: 1, bin_inf: 1 } } },

Summary

通过上面的例子可以看到,StatsD还是非常容易使用的,所以剩下的就是我们在代码里面根据实际情况加上metric了,但这里还有几点需要注意:

  • UDP虽然很快,但仍然可能会因为发送buffer满block当前进程,建议设置成noblock,对于metric来说,其实我们并不在意丢了几个包。
  • 埋点是一个辛苦活,太多或者太少的metric其实都没啥用。
  • metric也并不是万能的,它只是一个系统的汇总统计,有时候我们还需要借助log,flamegraph等其他方式来进行系统问题排查。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容

  • 介绍 https://github.com/etsy/statsd 简单来讲,StatsD 就是一个简单的网络守护...
    猴子精h阅读 10,140评论 0 1
  • Prometheus Prometheus是一套开源的监控&报警&时间序列数据库的组合,起始是由SoundClou...
    YichenWong阅读 19,302评论 0 6
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,591评论 18 139
  • from http://www.infoq.com/cn/articles/etcd-interpretation...
    小树苗苗阅读 13,939评论 3 38
  • 一直以来,我们会在项目中,使用 APM 去监控应用的状况,分析性能等,这些工具很有效,而且不侵入业务,不需要埋点。...
    xizhibei阅读 3,734评论 0 2