Redis故障案例(一)-特定key批量丢失

TroubleShooting-排障是DBA一项重要技能,通过故障表现的症状,先让业务快速恢复止损,同时分析故障的根因(rootCause),给出解决方案并从根本上修复故障,最后总结从产品或流程上怎么规避同类型故障再次发生。

DBA排障很像医生治病、刑警破案。

医生通过了解病人病情症状(故障症状),先让病人病情缓解(服务止损)类似止痛,同时分析病灶(故障根因),给出可行的治疗方案(故障解决方案),病人完全恢复;最后给出医疗建议如何预防病情或避免恶化(故障规避);当然还有现多的类似急救(紧急故障-7位数级损失)、会诊、不治、AI医疗(AI故障根因分析)、医疗事故(背锅);其实很多相通之处。

刑警通过真凶(故障根因)留下的犯罪现场(故障症状),根据罗卡定律,各种技术分析和寻找证据,最终找出真凶和证据。(段子很多,先回到主题)

在Redis早期的运维过程中,也遇过不少Redis故障,现总结其中几个有意思的案例,希望对刚开始用Redis的DBA同学有所帮助。故障因与业务、故障场景结合较密切(脱敏),笔者尽量提炼成技术和还原现场;故障系列文章包括以下几部分:

故障背景:主要交待技术和故障背景[可选];

故障描述:故障的简单描述、根本原因和影响;

故障监控告警:故障相关的监控告警信息;

故障分析:文章核心 提供类似故障的分析思路、和技术点;

故障阶段性总结:文章核心 总结类似故障的通用性预防;

本文是Redis故障案例(一)关于一次Redis特定key丢失排查分析。

1 故障背景

A业务有一个3分片的Redis Cluster缓存集群,会定期生成数据写入Redis;某一天,A业务的研发工程师(下文简称RD)突然找到DBA,很激动地说:“我们Redis集群突然掉很多key…” ,然后故事就开始了….

RD: “我们Redis集群中,以“t_list:”前缀的90000多key今早发现都掉了,其他key还在,是不是DBA有清理操作啊?”

DBA: “没有维护性操作(一脸懵B和无辜),先止损,把Key从Primary store中导入Redis;”

RD: “已经从MySQL把key导入到Redis,现在业务功能恢复,影响很小。但请帮忙追查原因。“

DBA: “这部分key确认最近一次还在是什么时候? 然后最早发现丢失是在什么时候?” 备注:DBA开始和当事人了解案发时间,为排查问题提供依据。

RD: “昨晚20:30前key肯定还在,最早发现key不见是今早9:20同事发现新测试功能有异常” 备注:灰度功能

DBA: ”好的,我先分析一下原因,有结果了通知你;定位问题前,你也关注一下服务,避免问题二次发生”。

然后RD就下楼了,DBA扣上他的几十元买来的boss耳机,开始自言自语Troubleshooting.

2 故障描述

因RD1同学为重写t_list的90000多个KEY, 通过keys t_list*命令获取并删除,但未及时把key新内容重到redis中;使得RD2同学以为数据灵异丢失。但因为是灰度功能使用数据,服务影响范围较小。我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

3 故障告警

1 业务告警缺失;见故障总结

2 Redis侧无法监控此类告警

4 故障分析

通过RD提供的线索:

特定t_list:前缀90000个List元素丢失;

数据丢失时间范围前日20:30~9:20之间(案发时间段,分析各种监控范围)。

通过故障症状初步分析,故障可能的根因:

执行了flushall/flushdb命令删除所有key,其他key是后来写入的,造成了只丢失t_list的假象

这90000个List元素因执行LPOP/RPOP,导致key被删除的现象;(List中元素被全部pop完后,list相当于被删除了)

这部分key因设置了TTL,在此期间内全部过期,被redis自动删除;

这部分key因LRU淘汰,被redis全部驱逐淘汰;

程序BUG或人为删除导致;

每个可能故障根因排查分析:

点击链接阅读全文:yq.aliyun.com/articles/259109

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容