谈谈缓存穿透雪崩和过载保护以及一致性等问题

本来很早就想记录一下这方面的问题,后来看到skynet中消息队列的过载保护处理以及目前项目中的考虑到的问题,于是就花些时间整理并系统的学习下这方面的知识。

目前skynet中的消息队列是无界的,不会出现消息丢失,乱序等问题,反而是上层业务逻辑处理不当,可能造成消息的乱序或者把重要的请求消息丢失。但是这样带来的问题是如果某个业务把线程卡死导致某个服务队列的消息堆积,造成内存耗尽或者进程被kill引起严重问题怎么办?再或者有些消息不及时处理导致超时,客户端重传,再超时,后台业务处理的消息要么都是超时的要么都是没啥用的。

一般游戏中都会有监控逻辑,达到阀值会警告或者强制处理,再或者配个高优先级队列,先处理优先级高的消息。再或者排队处理,比如游戏中的登陆,一秒登陆五十个玩家,如果一开服涌入大批玩家,一方面可能造成卡顿对用户体验不是很好,另一方面可能造成登陆失败等其他问题。如果不作些特殊处理,那么当后台业务进程处理到这些消息时,可能玩家早就跑了,此时处理的消息都没啥用。

这里不会解释消息的乱序,协程并发相关的问题,这方面的细节会在第三篇skynet源码分析中说明。也不解释缓存/内存一致性模型,这里分析是如redis进程级别的缓存,介于如mysql和上游业务server之间,缓存热点数据,或者消息之类的作用。

这里整理下以前看过的资料,会简单介绍下每个的具体含义以及相关的可行方案,毕竟这些并不是什么新鲜的技术,固定的几种。

缓存雪崩

当我们要查一个以key为键的值时,比如游戏排行榜中的玩家数据 ,一般以userid为key存储简要数据,玩家创建的时候会同步一些数据到cache中,比如这里cache由redis来处理,有数据更新时咱们先更新db,再更新cache,假设都成功,因为查cache数据时,有点延迟或不一致都没多大问题。这时由于cache进程一般和具体的场景功能是解耦的,作为独立进程存在。假设在如下情况下,一万个玩家拉取到某一页的排行简要数据,比如排名,角色id,姓名等,此时cache进程挂了,然后一万个玩家点具体的排名玩家时需要显示更为详细的信息比如装备和属性数据时,场景进程转发读cache请求,此时cache进程刚重启,那么所有的请求都落到了db那边,造成了一定的压力,当然这里的请求量不多,这就是缓存雪崩。简言之就是“当缓存服务器重启或者大量缓存集中在某一个时间段失效,这样在失效的时候,也会给后端系统带来很大压力。”

一般业务中有些功能需求是要设置超时时间的,如果对精确性不作过多要求,比如晚一秒或早一秒超时是没多大关系的,那么可以把集中超时改为分散超时这样。

也可以如缓存穿透做法,当请求量过来时,当cache数据失效时,先设置个无效值,然后放行这个请求到db查询,回来时,更新cache,而其他请求则直接查cache,发现是无效值则返回client并且可以重试等处理。

当然还有其他做法比如加锁key的查询。

缓存穿透

这个情况是查证的key压根就不存在,导致所有请求都流到db那边,造成压力。这里可以设置个特殊值到cache,并设置个超时时间,这样所有的请求都落到cache这边。

还有缓存击穿的概念,其实解决办法同上面类似或综合一下,这里不作分析。

过载保护

在游戏业务中,一般会为每个client连接配置收发消息队列,以前经历过的项目是这样的情况,但由于代码实现原理看不到,只有大概设计文档,实现貌似是一收一发环形数组队列,放在共享内存中,当消息过多时,防止溢出会丢失,不处理的,然后由客户端重传,但是这里还是有些问题的。
然后目前项目是用的skynet框架,开源的,底层实现对于收消息,是放入对应服务消息队列并等待工作线程调度,会一直收,并没有容量限制,当然这里会有问题。然后由上层实现来处理收到的消息,如果处理过慢,导致队列中的消息来不及处理并超时,那么后台服务就会做些无用功等。但是发是直接关联socket buffer的待发列表,前面的文章也分析过。相关的会在「浅析skynet底层框架下篇」中介绍。

合理的估计服务进程的能力需要多方面考虑,以下几篇腾讯wetest的分析说的挺好的,然后百度brpc也有类似的方案,这里我没有作过多的研究,这小节大概就简单介绍。

缓存与DB的一致性

以上都是基于请求查询的业务,没有设计到写请求,当并发量上来时很容易出现问题。这里举例A和B分别为读写请求,然后落到业务进程server这边,后台服务有个mysql和redis作为缓存,那么怎么处理会比较好些呢?

如果参考到MESI协议,如当core 1的cache状态为s时,如果进行本地写,那么其他core的cache控制器监听到信号时,会更新cache的状态为i,并invalid自己cache的数据,core 1并在一定的时间后刷新到内存。然后回到这里,一般最佳做法是先更新db,再淘汰cache,其他的方式都不合理,如可能查的是旧数据等。考虑到一些失败等情况,这里没有具体涉及,建议参考下面的资料缓存更新的套路

以下是参考资料
服务器过载保护(上篇)——过载介绍
服务器过载保护(下篇)——过载处理新方案
腾讯后台开发技术总监浅谈过载保护 小心雪崩效应
缓存一致性,缓存穿透,缓存击穿,缓存雪崩解决方案分析
缓存/内存Coherence模型
如何解决微服务架构中的雪崩问题?
Cache应用中的服务过载案例研究
缓存更新的套路
缓存穿透与缓存雪崩
缓存穿透、缓存并发、缓存失效之思路变迁
缓存系列文章
高并发热点缓存数据可能出现问题及解决方案
再谈缓存穿透、缓存并发、热点缓存之最佳招式

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,923评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,154评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,775评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,960评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,976评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,972评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,893评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,709评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,159评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,400评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,552评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,265评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,876评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,528评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,701评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,552评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,451评论 2 352

推荐阅读更多精彩内容