记录一次生产OOM解决

从去年11月份把我的定时抢红包程序从阿里云ECS迁移到百度云的BCC之后,就经常出现OOM异常.一开始运行正常,然后等大概3天出现.

image.png

准备结合JVM的知识来找到问题的源头.

01 jps获取进程ID

首先我登录到百度云主机,输入jps,可以通过jps命令获取到的的java进程id

jps -v

image.png

我的应用进程ID是 1961

02 jstat获取到虚拟机的统计信息

通过jstat -gc可以获取到Java堆中的状况

jstat -gc 1961

image.png

目前老年代OU还没有耗尽OC,所以暂时还不会OOM,并且老年代发生了8次GC,新生代发生了190次GC了

jstat -gc 1961 250 200

连续打印日志发现Eden区的日志是不断上升的,所以新建对象一般是分在了eden区

03 jmap 获取到对象的统计数量

jmap -dump 命令可以把我的java应用的内存镜像导出,但是导出来有300多M,因为要导出到我的本地时间比较慢,所以我直接查看对象数量

jmap -histo 1961 > a.txt

image.png

发现排在前面的有一个DTO对象和一个lamda对象,通过查询源代码发现这个lamda对象是一个线程池中的task.

image.png

源码的这两处和JVM堆中的对象一一对应,也就是在任务提交这里出现了大量的任务未被执行,并且放入到了队列当中.

查下了下线程池,果不其然,队列的数据结构是默认的LinkedBlockQuee,这种数据结构的队列可存放任务数是Integer的最大值.

image.png

大概是没间隔3秒,往这个线程池中提交3个任务.

现在可以判断是线程池任务的笑话速度比不过往线程池中添加任务的速度.所以导致出现了对象的大量的积压最终堆中的内存不足以承载这么多的任务.所以出现了内存溢出OOM.

04 jstack打印当前应用的线程栈

目前线程池中有20个线程,同时并发消耗任务,为什么会消耗慢于任务提交呢

jstack -l 1961

jstack打印了当前所有的线程,整理了一下,执行任务线程池的线程,一共有20个.其中5个是处于RUNNABLE,另外15个是WAITING状态.

image.png

并且阻塞的地方都是在HttpClient.doExecute方法下,我使用的是RestTemplate.

RestTemplate是对HttpClient的封装.而HttpClient里面是有维护一个连接池的,我想到连接池的参数是不是过小,所以继续获取需要线程等待,

查看源码果然是设置最大连接数为5

image.png

05 还是有问题

到这里,我已经知道了为什么我的线程池有20个线程,但是线程池只有5个线程在工作,其他的在等待是因为httpclient里面内置的连接池最大连接只有5个.

但是当我断点的时候,发现这5个线程永久性的"卡"在了http连接这一步,到底是为什么呢?

首先我想到的是不是没有超时导致的,果然,在源码和断点中发现超时时间是-1导致了永久性的卡主.

image.png

06 总结

通过这次问题排查,我总结一下这次生产问题的原因.

最终造成的结果是出现OOM.

通过JDK的工具排查发现堆中对象数最多的是一个DTO和一个lambda对象,可见是不断的堆积,并且没有被垃圾回收最终导致的OOM.

按图索骥发现是线程池的拒绝策略无效,因为线程池的队列是LinkedBlockQuee,所以每过3秒就会往队列里面添加对象,并且不断累积.

通过jstack发现线程池的20条线程,只有5个是运行,15个waitting,从而找到这个任务方法里面的Httpclient的内置连接池只有5个连接,所以导致线程池20个线程无效.

为什么会队列任务消耗数量比不过任务的累计数量呢?

说明任务的执行时间很长,但是每天添加任务的时段是7点-23点,也就是还有8个小时的时间来消耗任务,但是依然没有消耗完.就像是任务一直卡在那个lambda里面了.

通过源码和断点发现,由于httpclient连接池里面的超时时间为-1,也就是永远的超时.

07 解决方案

首先设置restemplate的连接超时时间,并且设置最大连接数为20.
修改线程池的队列数量为ArrayBlockQuee,并且限制数量,拒绝策略为直接拒绝,因为是抢红包任务,不怕任务丢失

最后编辑于：2020.04.23 09:20:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,843评论 6赞 502
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,538评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,187评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,264评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,289评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,231评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,116评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,945评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,367评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,581评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,754评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,458评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,068评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,692评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,842评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,797评论 2赞 369
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,654评论 2赞 354

记录一次生产OOM解决

01 jps获取进程ID

02 jstat获取到虚拟机的统计信息

03 jmap 获取到对象的统计数量

04 jstack打印当前应用的线程栈

05 还是有问题

06 总结

07 解决方案

推荐阅读更多精彩内容