(转载)线上服务 CPU 100%?一键定位 so easy!

0、背景

经常做后端服务开发的同学,或多或少都遇到过 CPU 负载特别高的问题。尤其是在周末或大半夜,突然群里有人反馈线上机器负载特别高,不熟悉定位流程和思路的同学可能登上服务器一通手忙脚乱,定位过程百转千回。

对此,也有不少同学曾经整理过相关流程或方法论,类似把大象放进冰箱要几步,传统的方案一般是4步

1.top oder bywithP:1040// 首先按进程负载排序找到  axLoad(pid)

2.top -Hp 进程PID:1073// 找到相关负载 线程PID

3.printf “0x%x

”线程PID:0x431// 将线程PID转换为 16进制,为后面查找 jstack 日志做准备

4.jstack  进程PID | vim +/十六进制线程PID -        // 例如:jstack 1040|vim +/0x431-

但是对于线上问题定位来说,分秒必争,上面的 4 步还是太繁琐耗时了,有没有可能封装成为一个工具,在有问题的时候一键定位,秒级找到有问题的代码行呢?

当然可以!工具链的成熟与否不仅体现了一个开发者的运维能力,也体现了开发者的效率意识。淘宝的oldratlee 同学就将上面的流程封装为了一个工具:show-busy-java-threads.sh(https://github.com/oldratlee/useful-scripts),可以很方便的定位线上的这类问题,下面我会举两个例子来看实际的效果。

快速安装使用:

source <(curl -fsSLhttps://raw.githubusercontent.com/oldratlee/useful-scripts/master/test-cases/self-installer.sh)

一、java 正则表达式回溯造成 CPU 100%

importjava.util.ArrayList;

importjava.util.List;

importjava.util.regex.Matcher;

importjava.util.regex.Pattern;

publicclassRegexLoad{

publicstaticvoidmain(String[] args){

String[] patternMatch = {"([\w\s]+)+([+\-/*])+([\w\s]+)",

"([\w\s]+)+([+\-/*])+([\w\s]+)+([+\-/*])+([\w\s]+)"};

List patternList =newArrayList();

patternList.add("Avg Volume Units product A + Volume Units product A");

patternList.add("Avg Volume Units /  Volume Units product A");

patternList.add("Avg retailer On Hand / Volume Units Plan / Store Count");

patternList.add("Avg Hand Volume Units Plan Store Count");

patternList.add("1 - Avg merchant Volume Units");

patternList.add("Total retailer shipment Count");

for(String s :patternList ){

for(inti=0;i

Pattern pattern = Pattern.compile(patternMatch[i]);

Matcher matcher = pattern.matcher(s);

System.out.println(s);

if(matcher.matches()) {

System.out.println("Passed");

}else

System.out.println("Failed;");

}

}

}

}

编译、运行上述代码之后,咱们就能观察到服务器多了一个 100% CPU 的 java 进程:

怎么使用呢?

show-busy-java-threads.sh

# 从 所有的 Java进程中找出最消耗CPU的线程(缺省5个),打印出其线程栈。

show-busy-java-threads.sh -c <要显示的线程栈数>

show-busy-java-threads.sh -c <要显示的线程栈数> -p <指定的JavaProcess>

# -F选项:执行jstack命令时加上-F选项(强制jstack),一般情况不需要使用

show-busy-java-threads.sh -p <指定的JavaProcess> -F

show-busy-java-threads.sh -s <指定jstack命令的全路径>

# 对于sudo方式的运行,JAVA_HOME环境变量不能传递给root,

# 而root用户往往没有配置JAVA_HOME且不方便配置,

# 显式指定jstack命令的路径就反而显得更方便了

show-busy-java-threads.sh -a <输出记录到的文件>

show-busy-java-threads.sh -t <重复执行的次数> -i <重复执行的间隔秒数>

# 缺省执行一次;执行间隔缺省是3秒

##############################

# 注意:

##############################

# 如果Java进程的用户 与 执行脚本的当前用户 不同,则jstack不了这个Java进程。

# 为了能切换到Java进程的用户,需要加sudo来执行,即可以解决:

sudoshow-busy-java-threads.sh

示例:

work@dev_zz_Master10.48.186.3223:45:50~/demo >

bash show-busy-java-threads.sh

[1] Busy(96.2%) thread(8577/0x2181) stackofjava process(8576) under user(work):

"main"prio=10tid=0x00007f0c64006800nid=0x2181runnable [0x00007f0c6a64a000]

java.lang.Thread.State: RUNNABLE

at java.util.regex.Pattern$GroupHead.match(Pattern.java:4168)

at java.util.regex.Pattern$Loop.match(Pattern.java:4295)

...

at java.util.regex.Matcher.match(Matcher.java:1127)

at java.util.regex.Matcher.matches(Matcher.java:502)

at RegexLoad.main(RegexLoad.java:27)

[2] Busy(1.5%) thread(8591/0x218f) stackofjava process(8576) under user(work):

"C2 CompilerThread1"daemon prio=10tid=0x00007f0c64095800nid=0x218fwaitingoncondition [0x0000000000000000]

java.lang.Thread.State: RUNNABLE

[3] Busy(0.8%) thread(8590/0x218e) stackofjava process(8576) under user(work):

"C2 CompilerThread0"daemon prio=10tid=0x00007f0c64093000nid=0x218ewaitingoncondition [0x0000000000000000]

java.lang.Thread.State: RUNNABLE

[4] Busy(0.2%) thread(8593/0x2191) stackofjava process(8576) under user(work):

"VM Periodic Task Thread"prio=10tid=0x00007f0c640a2800nid=0x2191waitingoncondition

[5] Busy(0.1%) thread(25159/0x6247) stackofjava process(25137) under user(work):

"VM Periodic Task Thread"prio=10tid=0x00007f13340b4000nid=0x6247waitingoncondition

work@dev_zz_Master10.48.186.3223:46:04~/demo >

可以看到,一键直接定位异常代码行,是不是很方便?

二、线程死锁,程序 hang 住

importjava.util.*;

publicclassSimpleDeadLockextendsThread{

publicstaticObject l1 =newObject();

publicstaticObject l2 =newObject();

privateintindex;

publicstaticvoidmain(String[] a){

Thread t1 =newThread1();

Thread t2 =newThread2();

t1.start();

t2.start();

}

privatestaticclassThread1extendsThread{

publicvoidrun(){

synchronized(l1) {

System.out.println("Thread 1: Holding lock 1...");

try{ Thread.sleep(10); }

catch(InterruptedException e) {}

System.out.println("Thread 1: Waiting for lock 2...");

synchronized(l2) {

System.out.println("Thread 2: Holding lock 1 & 2...");

}

}

}

}

privatestaticclassThread2extendsThread{

publicvoidrun(){

synchronized(l2) {

System.out.println("Thread 2: Holding lock 2...");

try{ Thread.sleep(10); }

catch(InterruptedException e) {}

System.out.println("Thread 2: Waiting for lock 1...");

synchronized(l1) {

System.out.println("Thread 2: Holding lock 2 & 1...");

}

}

}

}

}

执行之后的效果:

如何用工具定位:

一键定位:可以清晰的看到线程互相锁住了对方等待的资源,导致死锁,直接定位到代码行和具体原因。

通过上面两个例子,我想各位同学应该对这个工具和工具能解决什么问题有了比较深刻的了解了,遇到 CPU 100% 问题可以从此不再慌乱。但是更多的还是依赖大家自己去实践,毕竟实践出真知嘛~

三、免费实用的脚本工具大礼包

除了正文提到的 show-busy-java-threads.sh,oldratlee 同学还整合和不少常见的开发、运维过程中涉及到的脚本工具,觉得特别有用的我简单列下:

(1)show-duplicate-java-classes

偶尔会遇到本地开发、测试都正常,上线后却莫名其妙的 class 异常,历经千辛万苦找到的原因竟然是 Jar冲突!这个工具就可以找出Java Lib(Java库,即Jar文件)或Class目录(类目录)中的重复类。

Java开发的一个麻烦的问题是Jar冲突(即多个版本的Jar),或者说重复类。会出NoSuchMethod等的问题,还不见得当时出问题。找出有重复类的Jar,可以防患未然。

# 查找当前目录下所有Jar中的重复类

show-duplicate-java-classes

# 查找多个指定目录下所有Jar中的重复类

show-duplicate-java-classespath/to/lib_dir1 /path/to/lib_dir2

# 查找多个指定Class目录下的重复类。Class目录 通过 -c 选项指定

show-duplicate-java-classes -cpath/to/class_dir1 -c /path/to/class_dir2

# 查找指定Class目录和指定目录下所有Jar中的重复类的Jar

show-duplicate-java-classespath/to/lib_dir1 /path/to/lib_dir2 -cpath/to/class_dir1 -cpath/to/class_dir2

例如:

# 在war模块目录下执行,生成war文件

$ mvn install

...

# 解压war文件,war文件中包含了应用的依赖的Jar文件

$ unzip target/*.war -d target/war

...

# 检查重复类

$ show-duplicate-java-classes -c target/war/WEB-INF/classes target/war/WEB-INF/lib

...

(2)find-in-jars

在当前目录下所有jar文件里,查找类或资源文件。

用法:注意,后面Pattern是grep的 扩展正则表达式。

find-in-jars'log4j.properties'

find-in-jars'log4j.xml$'-d /path/to/find/directory

find-in-jars log4j\.xml

find-in-jars'log4j.properties|log4j.xml'

示例:

$ ./find-in-jars'Service.class$'

./WEB-INF/libs/spring-2.5.6.SEC03.jar!org/springframework/stereotype/Service.class

./rpc-benchmark-0.0.1-SNAPSHOT.jar!com/taobao/rpc/benchmark/service/HelloService.class

(3)housemd pid [java_home]

很早的时候,我们使用BTrace排查问题,在感叹BTrace的强大之余,也曾好几次将线上系统折腾挂掉。2012年淘宝的聚石写了HouseMD,将常用的几个Btrace脚本整合在一起形成一个独立风格的应用,其核心代码用的是Scala,HouseMD是基于字节码技术的诊断工具, 因此除了Java以外, 任何最终以字节码形式运行于JVM之上的语言, HouseMD都支持对它们进行诊断, 如Clojure(感谢@Killme2008提供了它的使用入门), scala, Groovy, JRuby, Jython, kotlin等.

使用housemd对java程序进行运行时跟踪,支持的操作有:

查看加载类

跟踪方法

查看环境变量

查看对象属性值

详细信息请参考: https://github.com/CSUG/HouseMD/wiki/UserGuideCN

(4)jvm pid

执行jvm debug工具,包含对java栈、堆、线程、gc等状态的查看,支持的功能有:

========线程相关=======

1 : 查看占用cpu最高的线程情况

2 : 打印所有线程

3 : 打印线程数

4 : 按线程状态统计线程数

========GC相关=======

5 : 垃圾收集统计(包含原因)可以指定间隔时间及执行次数,默认1秒, 10次

6 : 显示堆中各代的空间可以指定间隔时间及执行次数,默认1秒,5次

7 : 垃圾收集统计。可以指定间隔时间及执行次数,默认1秒, 10次

8 : 打印perm区内存情况*会使程序暂停响应*

9 : 查看directbuffer情况

========堆对象相关=======

10 : dump heap到文件*会使程序暂停响应*默认保存到`pwd`/dump.bin,可指定其它路径

11 : 触发full gc。*会使程序暂停响应*

12 : 打印jvm heap统计*会使程序暂停响应*

13 : 打印jvm heap中top20的对象。*会使程序暂停响应*参数:1:按实例数量排序,2:按内存占用排序,默认为1

14 : 触发full gc后打印jvm heap中top20的对象。*会使程序暂停响应*参数:1:按实例数量排序,2:按内存占用排序,默认为1

15 : 输出所有类装载器在perm里产生的对象。可以指定间隔时间及执行次数

========其它=======

16 : 打印finalzer队列情况

17 : 显示classloader统计

18 : 显示jit编译统计

19 : 死锁检测

20 : 等待X秒,默认为1

q : exit

进入jvm工具后可以输入序号执行对应命令

可以一次执行多个命令,用分号";"分隔,如:1;3;4;5;6

每个命令可以带参数,用冒号":"分隔,同一命令的参数之间用逗号分隔,如:

Enter commandqueue:1;5:1000,100;10:/data1/output.bin

(5)greys[@IP:PORT]

PS:目前Greys仅支持Linux/Unix/Mac上的Java6+,Windows暂时无法支持

Greys是一个JVM进程执行过程中的异常诊断工具,可以在不中断程序执行的情况下轻松完成问题排查工作。和HouseMD一样,Greys-Anatomy取名同名美剧“实习医生格蕾”,目的是向前辈致敬。代码编写的时候参考了BTrace和HouseMD两个前辈的思路。

使用greys对java程序进行运行时跟踪(不传参数,需要先greys -C pid,再greys)。支持的操作有:

查看加载类,方法信息

查看JVM当前基础信息

方法执行监控(调用量,失败率,响应时间等)

方法执行数据观测、记录与回放(参数,返回结果,异常信息等)

方法调用追踪渲染

详细信息请参考: https://github.com/oldmanpushcart/greys-anatomy/wiki

(6)sjksjk --commands sjk --help

使用sjk对Java诊断、性能排查、优化工具

ttop:监控指定jvm进程的各个线程的cpu使用情况

jps: 强化版

hh: jmap -histo强化版

gc: 实时报告垃圾回收信息

更多信息请参考: https://github.com/aragozin/jvm-tools


来源 https://my.oschina.net/leejun2005/blog/1524687

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容