[线上应用故障排查之:高CPU占用]
一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环。
以我们最近出现的一个实际故障为例,介绍怎么定位和解决这类问题。
现象:
在tomcat中部署java的web应用程序,过一段时间后出现tomcat的java进程持续占用cpu高达100%,导致web程序访问受阻。
可能原因分析:
可能程序确实在进行数据计算;或程序进入死循环。
解决方法:
- 根据
top
命令,查看占用cpu的进程PID,发现PID为2738的Java进程占用CPU高达99.9%,出现故障。
- 通过
ps aux | grep PID
或ps -ef |grep PID
命令,定位具体的进程主体,如是否是tomcat启动的java进程出现了问题。但是,怎么定位到具体线程或者代码呢?
首先显示线程列表: - 用
ps -mp PID -o THREAD,tid,time
命令打印出该进程下的线程占用cpu情况
找到了耗时最高的线程2804,占用CPU时间快三个半小时了! - 其次用
printf "%x\n" TID
命令将需要的线程ID转换为16进制格式:
- 最后用
jstack pid |grep tid -A 30
命令打印线程的堆栈信息:
找到出现问题的代码了!
现在来分析下具体的代码即可:
找到出现问题的代码,并分析具体函数中是否有可能出现死循环的代码段。
通常问题出现在while, for之类的循环代码片段。
AlarmSendListener.run(AlarmSendListener.java:98)
SnmpTrapThreads.run(SnmpTrapThreads.java:66)
ProduceAlarmEvent.run(ProduceAlarmEvent.java:50)
最后,总结下排查CPU故障的方法和技巧有哪些:
1、top命令:Linux命令。可以查看实时的CPU使用情况。也可以查看最近一段时间的CPU使用情况。
2、PS命令:Linux命令。强大的进程状态监控命令。可以查看进程以及进程中线程的当前CPU使用情况。属于当前状态的采样数据。
3、jstack:Java提供的命令。可以查看某个进程的当前线程栈运行情况。根据这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码,以及是否死锁等等。
4、pstack:Linux命令。可以查看某个进程的当前线程栈运行情况。
特别感谢@hankchen