记录一次生产OOM解决

从去年11月份把我的定时抢红包程序从阿里云ECS迁移到百度云的BCC之后,就经常出现OOM异常.一开始运行正常,然后等大概3天出现.


image.png

准备结合JVM的知识来找到问题的源头.

01 jps获取进程ID

首先我登录到百度云主机,输入jps,可以通过jps命令获取到的的java进程id

jps -v
image.png

我的应用进程ID是 1961

02 jstat获取到虚拟机的统计信息

通过jstat -gc可以获取到Java堆中的状况

jstat -gc 1961
image.png

目前老年代OU还没有耗尽OC,所以暂时还不会OOM,并且老年代发生了8次GC,新生代发生了190次GC了

jstat -gc 1961 250 200

连续打印日志发现Eden区的日志是不断上升的,所以新建对象一般是分在了eden区

03 jmap 获取到对象的统计数量

jmap -dump 命令可以把我的java应用的内存镜像导出,但是导出来有300多M,因为要导出到我的本地时间比较慢,所以我直接查看对象数量

jmap -histo 1961 > a.txt
image.png

发现排在前面的有一个DTO对象和一个lamda对象,通过查询源代码发现这个lamda对象是一个线程池中的task.

image.png

源码的这两处和JVM堆中的对象一一对应,也就是在任务提交这里出现了大量的任务未被执行,并且放入到了队列当中.

查下了下线程池,果不其然,队列的数据结构是默认的LinkedBlockQuee,这种数据结构的队列可存放任务数是Integer的最大值.

image.png

大概是没间隔3秒,往这个线程池中提交3个任务.

现在可以判断是线程池任务的笑话速度比不过往线程池中添加任务的速度.所以导致出现了对象的大量的积压最终堆中的内存不足以承载这么多的任务.所以出现了内存溢出OOM.

04 jstack打印当前应用的线程栈

目前线程池中有20个线程,同时并发消耗任务,为什么会消耗慢于任务提交呢

jstack -l 1961

jstack打印了当前所有的线程,整理了一下,执行任务线程池的线程,一共有20个.其中5个是处于RUNNABLE,另外15个是WAITING状态.

image.png

并且阻塞的地方都是在HttpClient.doExecute方法下,我使用的是RestTemplate.

RestTemplate是对HttpClient的封装.而HttpClient里面是有维护一个连接池的,我想到连接池的参数是不是过小,所以继续获取需要线程等待,

查看源码果然是设置最大连接数为5

image.png

05 还是有问题

到这里,我已经知道了为什么我的线程池有20个线程,但是线程池只有5个线程在工作,其他的在等待是因为httpclient里面内置的连接池最大连接只有5个.

但是当我断点的时候,发现这5个线程永久性的"卡"在了http连接这一步,到底是为什么呢?

首先我想到的是不是没有超时导致的,果然,在源码和断点中发现超时时间是-1导致了永久性的卡主.

image.png
image.png

06 总结

通过这次问题排查,我总结一下这次生产问题的原因.

最终造成的结果是出现OOM.

通过JDK的工具排查发现堆中对象数最多的是一个DTO和一个lambda对象,可见是不断的堆积,并且没有被垃圾回收最终导致的OOM.

按图索骥发现是线程池的拒绝策略无效,因为线程池的队列是LinkedBlockQuee,所以每过3秒就会往队列里面添加对象,并且不断累积.

通过jstack发现线程池的20条线程,只有5个是运行,15个waitting,从而找到这个任务方法里面的Httpclient的内置连接池只有5个连接,所以导致线程池20个线程无效.

为什么会队列任务消耗数量比不过任务的累计数量呢?

说明任务的执行时间很长,但是每天添加任务的时段是7点-23点,也就是还有8个小时的时间来消耗任务,但是依然没有消耗完.就像是任务一直卡在那个lambda里面了.

通过源码和断点发现,由于httpclient连接池里面的超时时间为-1,也就是永远的超时.

07 解决方案

  1. 首先设置restemplate的连接超时时间,并且设置最大连接数为20.

  2. 修改线程池的队列数量为ArrayBlockQuee,并且限制数量,拒绝策略为直接拒绝,因为是抢红包任务,不怕任务丢失

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,843评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,538评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,187评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,264评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,289评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,231评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,116评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,945评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,367评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,581评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,754评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,458评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,068评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,692评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,842评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,797评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,654评论 2 354

推荐阅读更多精彩内容

  • 线程的两种创建方式:继承Thread类或者实现Runnable接口,Thread类本质上是实现了Runnable接...
    繁星追逐阅读 591评论 0 1
  • 所有知识点已整理成app app下载地址 J2EE 部分: 1.Switch能否用string做参数? 在 Jav...
    侯蛋蛋_阅读 2,430评论 1 4
  • 在“走出来”这件事情上 我的确已经花了很多的时间 如你所见 情感依然存在 效果并不好 把《请写信吧》发完 又坐了一...
    TriciaZX阅读 216评论 1 1
  • 陈老师做了一个非常明智的决定,请了纽约大学的学霸君到卓尔哈佛来了一个现场直播,要知道:孩子们都不太愿意听父母唠叨,...
    卓尔哈佛黄老师阅读 451评论 0 3
  • 孟子曰:天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为,所以动心忍性,曾益其所不能。...
    玉与君生阅读 204评论 0 2