事故描述:
一天中午生产环境经常出现连接超时,过了一会儿能连上的现象;中午的时候尤其严重,服务无法连接,接口访问持续报错,查看日志均无error日志。
事故处理过程:
打开阿里云的控制台,找到rds的实例点进去,发现cpu使用率已经到达100%,后续点开侧边栏里面的一键诊断,看到里面的异常会话有很多,都是一条作业查询的sql导致的,古断定为慢sql导致的,通过添加表索引解决了问题。
事故总结:
问题就是数据量增多后表不加索引会导致关联查询的sql越来越慢慢,最后慢sql造成会话异常,异常的会话没有关闭会导致rds这台服务器cpu使用率达到极限,从而导致其他sql执行过慢,甚至直接执行不下去。