问题
- 早上线上app突然变得卡顿 据反馈部分用户不可用
问题排查
-
由于用的是阿里云 所以很方便看流量监控 发现NAT在这段时间连接丢失很严重
image.png
- 询问这段时间开发人员的操作,有人在做压测,在测试环境做压测很正常,不正常的是公司的测试环境与正式环境用的一套NAT 然后NAT用的又是小型的 阿里云NAT文档 (SNAT最大连接数规格:小型=1万,中型=5万,大型=20万) 最大并发只有1w,所以出现此问题
问题解决
- 测试环境与正式环境不共用NAT
- 公司内部项目调用接口不再使用域名形式,即公网形式, 而是使用VPC