本文章转载于搜狗测试
简介:perf是分析cpu占用的一份工具,用起来简单又强大,同时它也有它运行的局限性,例如需要cpu支持PMU,具体方案是cat /proc/cpuinfo,然后在flags项里找arch_perfmon。(PMU指的是cpu硬件支持软件对某些计算进行计数,具体可参考intel的官方文档:
https://software.intel.com/en-us/art...ounter-monitor
当进程出现cpu使用异常,或跑某些类型压力测试的时候希望分析cpu在不同函数里的占用(例如,到底是rank的哪一块函数占用cpu太多?是这次提测新修改的部分吗?)
优势:使用方便,只需一行命令。暴露问题明确,涉及cpu问题的场景下可以很好的帮助我们去分析问题原因。
对于cpu不同核心占用的区别,我们可以直接通过工具暴露出来。由于一台机器有多个cpu核心,我们可以方便分析该机器上是否仍有cpu资源空闲,该多开进程还是多开线程增强性能(通过对知乎站内summary的实践,发现在线程开大一倍之后cpu不能充分利用,多开进程就简单地把负载基本翻倍了)。
对进程cpu使用,有一个更加细致的预览。通过perf stat-p pidxxx可以对该进程的cpu使用状态有一个预览,并判断他是否真的是cpu占用过多,还是堵在I/O上更多一些。
此外这个功能还有个小case,给出了当时cpu的频率,可以发现是否服务器采用了节能模式,导致cpu的功率降低,或者尽早发现新机器对旧机器的cpu频率差异导致性能差异。
不足:需要cpu支持PMU,目前我们测试机比较古老的E5620机器都支持,目前还没看到不支持的机型。
需要代码环境支持,无法直接在线上/线下拖bin执行的方式跑。根据淘宝同学的文档,他们经过二次开发可以通过线上报告线下分析,但是线上跑仍然存在引发死机的风险。参考:
http://kernel.taobao.org/index.php?t...ments/Perf_FAQ
对java程序的支持,我们采用默认的perf找不到对应的c代码。
一些我们想到的问题:
(1)能否指定某个时间段进行分析?
目前的版本没有此功能,所以推荐人工控制perf的启动和关闭,类似jstat监控。report生成后是二进制文件,暂无法直接用vim或者grep想要的时间段。
(2)能否指定监控哪个核?
可以用perf record -C 0,1,2这种格式监控,方便某些进程特殊情况如果指定只使用cpu的一部分资源,只对这些cpu资源进行监控,或者验证其他不希望跑该进程的cpu,是否真的没有在处理这个进程的请求。
(3)监控(执行perf record)期间是否会导致性能下降?
从lquery为例观察的各50分钟的结果来看,cpu波动更大,尖峰更高,平均值差距不大(2%左右)
不带perf的cpu监控
带perf监控中的
(4)还有什么场景下可以使用perf?
需要cpu详细数据,针对cpu进行改进/变化的测试场景,涉及更换/对比cpu的测试场景。还有其他更多场景等待你的发掘~
(5)记录数据的大小?
记录数据打50分钟约产生了2.4G的数据,这里的数据是以上打lquery产生的记录文件
[ perf record: Woken up 9814 times to write data ]
[ perf record: Captured and wrote 2457.492 MB perf.data (~107369469 samples) ]