【优化技术专题】「系统性能调优实战」终极关注应用系统性能调优及原理剖析(上册)

背景介绍

  1. 本人是做呼叫中心服务的,但是最近需要将系统性能和吞吐提升更高的能力和层次,所以便进行先关系统性质的学习和优化相关的技术做了一定的研究。

调优背景

因为当出现吞吐远远不能够满足我们客户或者我们需要的呼叫了指标的时候因为出现了这么一次情况,虽然没有给用户没有给公司带来什么损失,但是该现象从侧面已经反应出了系统某些方面的问题,或许系统参数需要优化一番,或许系统设计交互需要优化一番,或许等等等的可能,才有了后续系统调优的历程。

计划优化的要点方向

  1. 流程相关分析优化:看看哪些流程可以同步转异步处理,可以梳理一下哪些请求可以合并起来,Server服务端的哪些业务场景需要补偿机制等。

  2. 数据库相关分析优化:哪些Sql耗时较长,哪些方法可以去除事务且去除事务后的带来的问题场景分析,数据库连接池参数是否合理,数据库本身相关参数的阈值情况的一些综合考虑;

  3. 内存使用情况分析优化:新老年代内存使用率及回收情况,CPU使用率,磁盘使用率,swap区使用情况, 线程dump,堆dump。

  4. JVM参数分析调优:YGC的平均耗时,YGC的平均间隔,FGC的平均耗时,FGC的平均间隔等等,根据具体情况反映具体问题;

  5. TCP/Tomcat参数分析调优:这个得根据实际压测情况来相应评估是否需要调整;

Linux命令相关查看指标

CPU 指标

每n秒采集一次,一共采集m次
vmstat n m
  • r表示运行队列,r值一般负载超过了3就比较高,超过了5就高,超过了10就不正常了;
  • bi和bo一般都要接近0,不然就是IO过于频繁
[root@svr01]$ vmstat 1 3
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0 206944 633564  29876 1252176    0    0    10    27    0    0  1  1 98  0  0
0  0 206944 634232  29876 1252192    0    0     0     0  811 1504  1  1 98  0  0
0  0 206944 634480  29876 1252264    0    0     0     0  951 1458  6  1 93  0  0

uptime

最近1分钟,5分钟,15分钟的系统平均负载。

  • <=3 则系统性能较好。
  • <=4 则系统性能可以,可以接收。
  • 大于5 则系统性能负载过重,可能会发生严重的问题,那么就需要扩容了,要么增加核心数量
[root@svr01]$ uptime
21:27:44 up 207 days, 11:15, 1 user, load average: 26.45, 16.76, 7.50

top

主要看us和sy,其中us<=70,sy<=35,us+sy<=70说明状态良好,同时可以结合idle值来看,如果id<=70 则表示IO的压力较大。

4.2 Memory 指标

vmstat

  • swpd:虚拟内存已使用的大小,如果大于0,表示你的机器物理内存不足了
  • si:每秒从磁盘读入虚拟内存的大小,如果这个值大于0,表示物理内存不够用或者内存泄露了,要查找耗内存进程解决掉。
  • so:每秒虚拟内存写入磁盘的大小,如果这个值大于0,同上,单位为KB。
[root@svr01]$ vmstat 1 3
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0 206944 633564  29876 1252176    0    0    10    27    0    0  1  1 98  0  0
0  0 206944 634232  29876 1252192    0    0     0     0  811 1504  1  1 98  0  0
0  0 206944 634480  29876 1252264    0    0     0     0  951 1458  6  1 93  0  0

Disk 指标

df

Use%:已使用占比,Use% <= 90% 表示还勉强接受正常

    [root@svr01]$ df
    Filesystem           1K-blocks     Used Available Use% Mounted on
    /dev/mapper/VolGroup00-LVroot
 17737040  4286920  12542448  26% /
    tmpfs                  1893300        0   1893300   0% /dev/shm
    /dev/sda1               194241   127341     56660  70% /boot
    /dev/mapper/VolGroup00-LVhome
487652     2348    459704   1% /home
    /dev/mapper/VolGroup00-LVcloud
3030800   260440   2613076  10% /opt/cloud
    /dev/mapper/VolGroup00-LVtmp
  8125880    18724   7687728   1% /tmp
    /dev/mapper/VolGroup00-LVvar
 25671996   848996  23512280   4% /var
    /dev/mapper/VolGroup1-LVdata1
  41149760 33707952   5344864  87% /wls/applogs 

Disk IO 指标

sar -d 1 1:查看磁盘报告 1 1 表示间隔1s,运行1次

  • 如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢。

  • 如果%util接近100%,表示磁盘产生的I/O请求太多,I/O系统已经满负荷的在工作,该磁盘请求饱和,可能存在瓶颈。

  • idle小于70% I/O压力就较大了,也就是有较多的I/O。

    [root@svr01]$ sar -d 1 1
    Linux 2.6.32-642.6.2.el6.x86_64 (SHB-L0044551) 07/20/2018 _x86_64_ (1 CPU)

    03:00:23 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
    03:00:24 PM dev252-0 23.00 808.00 80.00 38.61 9.88 375.35 43.48 100.00
    03:00:24 PM dev252-16 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
    03:00:24 PM dev253-0 4.00 448.00 0.00 112.00 1.11 222.00 249.50 99.80
    03:00:24 PM dev253-1 50.00 400.00 0.00 8.00 24.40 523.20 20.00 100.00
    03:00:24 PM dev253-2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
    03:00:24 PM dev253-3 3.00 32.00 0.00 10.67 0.99 242.33 331.67 99.50
    03:00:24 PM dev253-4 0.00 0.00 0.00 0.00 1.61 0.00 0.00 100.00
    03:00:24 PM dev253-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
    03:00:24 PM dev253-6 3.00 0.00 24.00 8.00 1.30 393.67 261.33 78.40

    Average: DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
    Average: dev252-0 23.00 808.00 80.00 38.61 9.88 375.35 43.48 100.00
    Average: dev252-16 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
    Average: dev253-0 4.00 448.00 0.00 112.00 1.11 222.00 249.50 99.80
    Average: dev253-1 50.00 400.00 0.00 8.00 24.40 523.20 20.00 100.00
    Average: dev253-2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
    Average: dev253-3 3.00 32.00 0.00 10.67 0.99 242.33 331.67 99.50
    Average: dev253-4 0.00 0.00 0.00 0.00 1.61 0.00 0.00 100.00
    Average: dev253-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
    Average: dev253-6 3.00 0.00 24.00 8.00 1.30 393.67 261.33 78.40

4Network IO 指标

netstat -nat |awk '{print $6}'|sort|uniq -c|sort -rn

在不考虑系统负载、CPU、内存等情况下,netstat监控大量ESTABLISHED连接与Time_Wait连接

[root@svr01]$ netstat -nat |awk '{print $6}'|sort|uniq -c|sort -rn
265 TIME_WAIT
 45 ESTABLISHED
 38 CLOSE_WAIT
 18 LISTEN
  8 FIN_WAIT2
  2 SYN_SENT
  1 Foreign
  1 established)

关于统计的量化指标

注意:有些命令通用,有些是我根据系统的日志文件格式利用awk/sed两个命令结合写出来的。

  1. netstat -nat |awk '{print $6}'|sort|uniq -c|sort -rn ( 查看TCP连接状态 )

  2. netstat -n|grep TIME_WAIT|awk '{print $5}'|sort|uniq -c|sort -rn|head -n20( 查找较多time_wait连接 )

  3. netstat -anlp|grep tcp |awk '{print 5}' |awk -F':' '{print1}' |uniq -c |sort -nr | head -n3( 查出访问靠前的IP地址 )

  4. cat hmilyylimh_sql.log | awk '{print 6}' | awk -F'ms' '{print1}' | awk -F'=' '{print $2 | "sort -r -n" }' | head -n5( 查询sql文件中耗时最高的前5个耗时数据值 )

  5. cat hmilyylimh_supp.log | awk '{print 10}' | awk -F'timeConsuming=' '{print2 }' | awk -F'ms' '{print $1 | "sort -r -n" }' | head -n5( 查看supp文件中耗时最高的前5个耗时数据值 )

  6. cat hmilyylimh_sql.log | grep 'sql:=' | awk '{print $5}' | uniq -c | sort -rn | head -n2( 查询sql文件总共打印了多少条SQL日志 )

  7. cat hmilyylimh_sql.log | grep 'NormalTimeConsuming' | awk '{print $5}' | uniq -c | sort -rn | head -n2( 查看sql文件成功执行了多少条SQL日志 )

  8. cat hmilyylimh_sql.log | grep 'BadTimeConsuming' | awk '{print $5}' | uniq -c | sort -rn | head -n2( 查看sql文件失败或者异常执行了多少条SQL日志 )

  9. cat hmilyylimh_supp.log | grep 'sendReqSupp start'| awk '{print 67$8}' | uniq -c | sort -nr | head -n2( 查询supp文件sendReqSupp start字符串出现的次数 )

  10. lsof -n | awk '{print 1,2}' | sort | uniq -c | sort -nr | head -n10( 统计持有各个进程持有句柄数最高的10个 )

  11. lsof -n | awk '{print 1,2}' | sort | uniq -c | sort -nr | awk '{ sum+=$1 };END { print sum } '( 计算所有进程持有句柄数的总和,ulimit -n命令查看最大句柄数 )

  12. lsof | awk 'NF == 9 { print $0}' | sort +6 -7nr | head -n10( 查看系统打开的大文件列表 )

  13. top -b -n 1 | grep -E 'Cpu(s)|Mem|Swap'( 一次性查出系统当前的CPU、内存、交换区的情况 )

  14. iostat -p sda | awk -F'Device' '{ print $1 }'( 查看cpu的统计信息(平均值) )

  15. cat access_log.date +%Y%m%d.txt | awk '{print $6}' | uniq -c | sort -k2 -r | head -n10( 统计每秒请求并发,按照时间降序排列 )

  16. cat access_log.date +%Y%m%d.txt | awk '{print $6}' | uniq -c | sort -rn | head -n10( 统计每秒并发,按照并发量降序排列 )

  17. cat access_log.date +%Y%m%d.txt | awk '{ sum+=$NF }; END { print sum*2/8/1024/1024, "M" }'( 查看访问hmilyylimh服务器每天的总流量 )

  18. cat gc.log | tail -n20|awk '{print 4}'| awk -F'->' '{print1, 2,3 }'| awk -F'(' '{print 1,2, 3}' | awk -F')' '{print1}' | awk -F'K' '{print 1/3100, "% used -> " ,2/3100, "% used " , 100-2/3*100, "% free ", $3/1024, "M total --- 新生代" }'( 查看gc指标,新生代最后n条记录的新生代内存变化率 )

  19. cat gc.log | tail -n20 | awk '{print 7}' | awk -F'->' '{print1, 2,3 }' | awk -F'(' '{print 1,2, 3}' | awk -F')' '{print1}' | awk -F'K' '{print 1/3100, "% used -> " ,2/3100, "% used " , 100-2/3*100, "% free ", $3/1024, "M total --- 堆内存" }'( 查看最后10条GC日志的堆内存已使用转化率 )

  20. cat /etc/sysctl.conf | grep 'tcp_'( 查看TCP参数设置信息 )

  21. cat hmilyylimh.log | awk '{if(2>"15:17:00.236") print0}' | grep "max_user_connections" | wc -l( 查看具体时间点后某个字符串出现的次数 )

六、系统常用计数器命令

1、echo "<<<<<<<<<<<<<< 线程阻塞等待计数: "`less hmilyylimh_error.log | grep "with callerRunsPolicy" | wc -l`",   ""db事务嵌套锁AcquireLock计数: "`less hmilyylimh_error.log | grep "CannotAcquireLockException" | wc -l`",   ""创建事务异常计数: "`less hmilyylimh_error.log | grep "CannotCreateTransactionException" | wc -l`",    ""db连接池溢出计数: "`less hmilyylimh_error.log | grep "more than 'max_user_connections'" | wc -l`",    ""Pool Empty计数: "`less hmilyylimh_error.log | grep "Unable to fetch a connection" | wc -l`" >>>>>>>>>>>>>>"

2、echo "<<<<<<<<<<<<<< UnknownHostException计数: "`less hmilyylimh_error.log | grep "UnknownHostException" | wc -l`",   ""ConnectionPoolTimeout计数: "`less hmilyylimh_error.log | grep "ConnectionPoolTimeout" | wc -l`",   ""ConnectException计数: "`less hmilyylimh_error.log | grep "ConnectException" | wc -l`",   ""ConnectTimeoutException计数: "`less hmilyylimh_error.log | grep "ConnectTimeoutException" | wc -l`",   ""SocketTimeoutException计数: "`less hmilyylimh_error.log | grep "SocketTimeoutException" | wc -l`",   ""OtherException计数: "`less hmilyylimh_error.log | grep "OtherException" | wc -l`" >>>>>>>>>>>>>>"

3、echo "<<<<<<<<<<<<<< Sql耗时最高的前5个数值: "`cat hmilyylimh_sql.log | awk '{print $6}' | awk -F'ms' '{print $1}' | awk -F'=' '{print $2 | "sort -r -n"  }' | head -n5`",   ""Supp耗时最高等待前5个数值: "`cat hmilyylimh_supp.log | awk '{print $10}' | awk -F'timeConsuming=' '{print $2 }' | awk -F'ms' '{print $1 | "sort -r -n" }' | head -n5`" >>>>>>>>>>>>>>"

4、echo "<<<<<<<<<<<<<< Http请求耗时最高前10个数值: "`less hmilyylimh.log | grep "timeConsuming=" | awk '{print $9}' | awk -F'=' '{print $2}' | awk -F'ms' '{print $1 | "sort -r -n"  }' | head -n10`" >>>>>>>>>>>>>>"
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容