JVM故障发现排除

title: JVM故障发现排除
date: 2017-12-08 21:20:40
tags:

Java
JVM
categories: JVM

最近做了服务器迁移之后，系统运行过程中出现了几次发现不稳定的情况。这次的经历又回想起之前几次碰到类似的问题，类似的问题往往需要能快速排查定位、处理。但相关类似问题又不是经常能够碰到，每次出现问题都是手忙脚乱的查资料，今天根据《深入理解 Java 虚拟机》和自己简单的经验做一下总结，方便日后使用。

工具

目前可用的 JVM 监控工具还是蛮多的，这里只列出实际操作中我使用的几个。其中有命令行工具也有第可视化工具，从使用的便捷性上讲，可视化的工具无疑是更好的。但生产环境处于安全，性能的考虑往往不开放远程连接，这时还是得用命令行工具处理。

命令行工具

jps：JVM 进程状况工具，主要作用是查看 LVMID，-v 参数可以输出 JMV 启动参数
jstat：JVM 统计信息监控工具，主要是查看 GC 相关信息：
- -gc：监视 Java 堆状况
- -gccapacity：监视 Java 堆状况，最大，最小空间
- -gcutil：监视 Java 堆状况，已使用百分比
输出列含义见文末
jinfo：Java 配置信息工具，查看设置 JVM 启动参数
- 查看：-flag < name >：输出指定名称参数值，作为 jps -v 补充
- 设置：
  - -flag [+|-] < name >：设置指定 JVM 参数的布尔值
  - -flag < name > = < value >：设置指定 JVM 参数的值
jmap：Java 内存映像工具，主要参数：
- -dump：生成快照，例如：-dump:format=b,file=< filename.bin > < pid >
- -heap：显示 Java 堆详细信息
- -histo：像是堆中对象统计信息
- -permstat：以 ClassLoader 为统计口径显示永久代内存状况
jstack：Java 堆栈跟踪工具，用于生成 JVM 当前线程快照，-l 参数显示关于加锁信息，-F 参数强制 dump

可视化工具

VisualVM：多合一故障处理工具，这个几乎涵盖了我用到上面命令行的所有功能
MemoryAnalyzerTool：用于分析 dump 堆文件，对比 VisualVM 功能单一，但是提供了报表功能可以协助分析问题

问题排查一般思路

目前我在实际开发过程中碰到的 JVM 问题主要可以分类几类：内存溢出、系统运行缓慢、频繁 FullGC

内存溢出

这种场景是影响最恶劣，但也是最容易排查的。通常的错误就能告诉说明溢出区域：

outOfMemoryError ：年老代内存不足
outOfMemoryError:PermGen Space：永久代内存不足
outOfMemoryError:GC overhead limit exceed：垃圾回收时间占用系统运行时间的98%或以上

生产环境碰到这类情况为了确保系统可用，可以先使用 jstat 查看 Java 堆的空间使用情况确定到底是哪部分溢出，其最大可用空间是多少，然后直接扩大该区域空间即可。重启时建议加上 -XX:+HeapDumpOnOutMemoryError 作为启动参数，在下次溢出可以获得快照文件。

上面的做法作为临时解决方案可以解决一般性的问题，但没有系统的快照无法深入分析问题产生的原因，如果想分析问题根源需要在重启前使用 jmap 生成快照。获得快照文件后可以在本地使用可视化工具分析。使用 MemoryAnalyzer 打开快照文件就能获得一个分析报表，里面列出了可能出现泄露的地方。目前我碰到的内存溢出问题一般从这个分析报表里面就可以确定了，如果不能确定就需要根据加载的类，类的实例，引用关系进一步分析了。

我目前碰到的都是 Java 堆的溢出，以上的思路基本可以解决。但除此还有其他的内存溢出需要注意：

Direct Memory
线程堆栈：StackOverflowError，OutOfMemoryError：unable to create new native thread
Socket 缓冲区：IOException：Too many open files

系统运行缓慢

系统运行缓慢可能出现的原因就比较多了，通常就是找到导致系统缓慢的具体代码段，然后修复。一般化的解决思路是从系统到应用，从应用到线程。

具体来说：首先使用系统监控工具（例如 top，vmstat）查看当前系统运行状况，确认哪个应用的资源占用过大，是否是 Java 应用的问题；其次使用 jps 获得具体应用的 LVMID，根据 LVMID 查看应用的具体运行状况，如线程情况，系统信息等。还可以根据系统工具 pidstat 进一步查看线程的运行信息来辅助确定问题。以上基本就可以确定问题。

频繁 FullGC

频繁 FullGC 需要视情况而定，这里只讨论 FullGC 频繁，但又没有触发 OOM 的排查。这种情况下 dump 快照，直接分析大对象比较靠谱。

本地应用

如果是本地应用或者可以远程访问的应用排查起来就更方便了，直接使用 VisualVM 连接上去，从系统到线程的一切信息都了如指掌，还可以直接运行 GC，dump 快照等。

关于工具使用的一些参考：

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解

MAT - Memory Analyzer Tool 使用进阶
jstat 输出列含义：

S0C：年轻代中第一个survivor的容量 (字节)

S1C：年轻代中第二个survivor的容量 (字节)

S0U：年轻代中第一个survivor目前已使用空间 (字节)

S1U：年轻代中第二个survivor目前已使用空间 (字节)

EC：年轻代中Eden的容量 (字节)

EU：年轻代中Eden目前已使用空间 (字节)

OC：Old代的容量 (字节)

OU：Old代目前已使用空间 (字节)

PC：Perm(持久代)的容量 (字节)

PU：Perm(持久代)目前已使用空间 (字节)

YGC：从应用程序启动到采样时年轻代中gc次数

YGCT：从应用程序启动到采样时年轻代中gc所用时间(s)

FGC：从应用程序启动到采样时old代(全gc)gc次数

FGCT：从应用程序启动到采样时old代(全gc)gc所用时间(s)

GCT：从应用程序启动到采样时gc用的总时间(s)

NGCMN：年轻代中初始化(最小)的大小 (字节)

NGCMX：年轻代的最大容量 (字节)

NGC：年轻代中当前的容量 (字节)

OGCMN：old代中初始化(最小)的大小 (字节)

OGCMX：old代的最大容量 (字节)

OGC：old代当前新生成的容量 (字节)

PGCMN：perm代中初始化(最小)的大小 (字节)

PGCMX：perm代的最大容量 (字节)

PGC：perm代当前新生成的容量 (字节)

S0：年轻代中第一个survivor已使用的占当前容量百分比

S1：年轻代中第二个survivor已使用的占当前容量百分比

E：年轻代中Eden已使用的占当前容量百分比

O：old代已使用的占当前容量百分比

P：perm代已使用的占当前容量百分比

S0CMX：年轻代中第一个survivor的最大容量 (字节)

S1CMX ：年轻代中第二个survivor的最大容量 (字节)

ECMX：年轻代中Eden的最大容量 (字节)

DSS：当前需要survivor的容量 (字节)（Eden区已满）

TT：持有次数限制

MTT ：最大持有次数限制

20171208 补充

目前系统接入了 APM（Application Performance Management）对整个系统的运行进行监控。监控内容包括但不限 JVM 相关内容，非常值得参考。
APM 传送问

最后编辑于：2018.09.18 10:57:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,348评论 6赞 491
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,122评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,936评论 0赞 347
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,427评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,467评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,785评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,931评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,696评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,141评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,483评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,625评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,291评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,892评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,741评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,977评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,324评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,492评论 2赞 348