主从模式下的redis集群,如果主库挂了,那么就无法接收写操作,所以哨兵模式应运而生。
哨兵是一个运行在特殊模式下的 Redis 进程,主要负责监控、选主和通知
哨兵通信机制
哨兵进程在运行时,周期性地给所有的主从库发送 ping命令,检测它们是否仍然在线运行。
如果没有在规定时间内响应哨兵的 ping 命令,那么会认为其下线,下线分为主观下线
和客观下线,当对ping命令响应超时时,哨兵会认为其主观下线,如果是从库,那么下线
就下线了问题不大,如果是主库,因为如果误判主库下线的话,得经过选主然后还是重新
进行主从数据同步,开销很大,所以预防误判,还有一个客观下线的过程,一个哨兵认为主库
下线只算主观下线,得集群中超过半数的哨兵认为其下线才是客观下线,才能真正下线进而
执行选主等后续操作。我们配置哨兵集群时,我们只配了主库的ip和端口,那么哨兵是怎么
知道其他的哨兵信息呢?通过redis提供的pub/sub机制,哨兵和主库建立连接之后,会在主库上
发布自己的信息,其他哨兵通过订阅消息进而得知信息,“__sentinel__:hello”这个channel就是
哨兵互相通信的频道。哨兵通过给主库发送info命令,进而得知从库信息以跟其建立连接
选主
要选定一个新的主库,要检查从库的当前在线状态,还要判断它之前的网络连接状态,
down-after-milliseconds是主从断连的超时阈值,通过统计从库和主库断联的次数,
剔除掉网络状况不好的从库,接下来从 从库优先级、从库复制进度以及从库ID号
三个维度顺序筛选,从而选出新主库,其中复制进度就是上篇文章讲的slave_repl_offset,
谁跟master_repl_offset最接近,谁就是复制进度最高,从库id号是小的优先。
客户端事件通知
每个哨兵实例也提供 pub/sub 机制,客户端可以从哨兵频道,例如主库主观下线频道、
主库客观下线频道、配置更新等等频道。通过pub/sub 机制,哨兵和哨兵之间、哨兵和从库
之间、哨兵和客户端之间就都能建立起连接了。
主从切换
要进行主从切换,得选出具体由哪个哨兵来执行操作,哨兵只要认为主库主观下线,
便会发送给其他哨兵is-master-down-by-addr命令,其他哨兵根据自己和主库的连接
状况做出Y/N的响应,一个哨兵要成为哨兵leader,有两个条件,一是得到超过半数的Y票,
另一个是Y票的数量大于配置文件配置的quorum值,如果网络压力较大时,没有哨兵达成
以上条件,那么得等待2倍哨兵故障转移超时时间再重新进行选举。需要注意的是我们要
保证所有哨兵实例的配置是一致,尤其是主观下线的判断值 down-after-milliseconds,
不然每个哨兵对于主库的主观下线判断标准不一致,会导致不能及时的选出新主库,进而
导致集群的不稳定。