1. 集群概述
Redis集群是Redis提供的分布式数据库方案,集群通过分片进行数据共享,提供复制和故障转移功能。
2.节点
一个Redis集群通常由多个节点组成,最初每个节点都是独立的,它们都处于只包含自己的集群之中,当通过CLUSTER MEET <ip> <port>
命令将各个独立的节点连接起来之后,它们就组成了一个集群。
一个节点其实就是一个运行在集群模式下的Redis服务器。其所提供的功能与普通的Redis服务器一致的。
2.1 集群数据结构
集群的数据结构主要包含以下三个:
clusterState-->clusterNode-->clusterLink
它们三个是一个包含关系,具体如下图所示:
每个节点都包含一个clusterState结构
2.2 CLUSTER MEET命令实现
通过向节点A发送CLUSTER MEET命令,客户端可以让接收命令的节点A将另一个节点B添加到节点A当前所在的集群里面。
CLUSTER MEET <ip> <port>
具体执行过程:
1.节点A为节点B创建一个clusterNode结构,并将该结构添加到自己的clusterState.nodes字典里面
2.节点A根据ip和端口号向节点B发送一条MEET消息
3.节点B接收到节点A的MEET消息,节点B为节点A创建一个clusterNode结构,并将该结构添加到自己的clusterState.nodes字典里面
4.节点B向节点A返回一条PONG消息
5.节点A接收节点B返回的PONG消息,通过这条消息直到节点B已经成功的收到自己发送的MEET消息
6.节点A向节点B发送一条PING消息,通过这条消息,节点B知道节点A已经成功的接收到自己的PONG消息,握手完成。
3.槽指派
Redis集群通过分片的方式来保存数据库中的键值对,集群中的整个数据库被分为16384个槽,数据库中的每个键都属于这16384个槽的其中一个,集群中的每个节点可以处理0~16384个槽。当数据库中16384个槽都有节点在处理时,集群处于上线状态,相反如果集群中有任何一个槽都有得到处理,那么集群处于下线状态。
通过向节点发送如下命令可以将一个或多个槽指派给指定的节点负责:
CLUSTER ADDSLOTS <slot> [slot ...]
3.1 槽指派信息记录
槽指派信息记录在两个地方:
- clusterNode结构中,记录了当前节点的槽信息,包含当前节点处理哪些槽以及槽的数量
- clusterState记录了集群中所有16384个槽的分配
clusterNode中包含如下两个字段:
...
#slots为一个二进制位数组,每一位代表16384个槽中其中一个,1代表当前节点处理的槽,0表示非当前节点处理的槽
unsigned char slots[16384/8];
#当前节点处理槽的数量
int numslots;
...
clusterState中包含如下字段:
...
#包含一个长度为16384的数组,数组每一个元素代表了一个槽所指派给的节点
clusterNode *slots[16384];
...
一个例子如下:
3.2 CLUSTER ADDSLOTS命令执行
1.遍历所有输入槽,检查它们是否都未指派槽,只要有一个槽被指派,那么返回失败,命令中止
2.再次遍历所有输入槽,将这些槽指派给当前节点
4.在集群中执行命令
具体执行流程如下所示:
4.1MOVED错误
格式:
#<ip>:<port>为负责处理当前<solt>的节点
MOVED <solt> <ip>:<port>
在集群模式下,客户端接收到MOVED错误后,会直接重定向到相应的节点,然后重新发送命令进行执行,因此MOVED错误会被隐藏,但是在Redis单机模式下,MOVED错误是会被打印出来的。
4.2 键与槽之间的映射
每个Redis的键与槽之间的映射会保存在一张跳跃表中:
...
zskiplist *solts_to_keys;
...
solts_to_keys中跳跃表每个元素的分值即为槽值,元素的具体成员即为数据库的键。
5.重新分片
当需要将一个节点的槽分配给其他节点时,就需要进行重新分片。具体执行过程由redis-trib负责执行,具体一个槽的重新分配过程如下:
1.redis-trib对目标节点发送命令CLUSTER SETSOLT <slot> IMPORTING <source_id>
,让目标节点准备好从源节点倒入属于<slot>的键值对
2.redis-trib对源节点发送命令CLUSTER SETSOLT <slot> MIGRATING <target_id>
,让源节点最好准备将属于槽<slot>的键值对迁移至目标节点
3.redis-trib对源节点发送命令CLUSTER GETKEYSINSLOT <slot> <count>
,获取最多count个属于槽<slot>的键值对的键名。
4.对于3中获取到的每个键名,redis-trib向源节点发送命令MIGRATE <target_ip> <target_port> <key_name> 0 <timeout>
,将被选中的键原子的从源节点迁移至目标节点。
5.重复步骤3和4,直到源节点保存的所有属于槽solt的键值对都被迁移至目标节点为止
6.redis-trib向集群中的任意一个节点发送命令CLUSTER SETSOLT <solt> NODE <target_id>
,将槽solt指派给目标节点,这一指派信息会通过消息发送至整个集群,最终整个集群中的所有节点都会直到槽solt已经指派给了目标节点
5.1 ASK错误
在槽的迁移过程中不可避免的会出现一个时间段中一部分键存储在源节点中,一部分键存储在目标节点中。此时如果客户端向槽中键发起redis命令,就有可能产生ASK错误。
5.2 CLUSTER SETSOLT <slot> IMPORTING 命令执行
clusterState结构中的clusterNode *importing_solts_from[16384]
会记录当前节点正在由其他节点导入的槽:
5.3 CLUSTER SETSOLT <slot> MIGRATING
clusterState结构中的clusterNode *migrating_solts_to[16384]
会记录当前节点正在迁移至其他节点的槽:
5.4 ASKING命令执行
需要注意的是REDIS_ASKING标识是一个一次性的标识,当节点执行了一个带有REDIS_ASKING标识的客户端发送的命令之后,客户端的REDIS_ASKING标识就会被移除。
5.5 ASK错误和MOVED错误的区别
-MOVED错误表示槽的负责权已经从一个节点转移到另一节点
-ASK错误表示的是槽在转移过程中的一个临时措施
6.复制与故障转移
当需要为某个主节点设置从节点时,就需要进行复制
6.1设置从节点
通过命令:
CLUSTER REPLICATE <node_id>
进行设置,具体执行过程如下:
1.接收到该命令的节点首先会在自己的clusterState.nodes字典中找到node_id所指向的clusterNode结构,并将自己的clusterState.myself.slaveof指针指向这个结构,以此来记录这个节点正在复制的主节点
2.节点修改clusterState.myself.flags中的REDIS_NODE_MASTER-->REDIS_NODE_SLAVE
3.调用复制代码进行数据复制
一个从节点的结构示例如下:
一个主节点结构示例如下:
6.2 故障检测
集群中的每个节点都会定期向其他节点发送PING消息,以此来进行检测其他节点是否在线,如果接收PING消息的其他节点没有在指定的时间内返回PONG消息,那么当前节点就会在clusterState结构中找到目标节点的clusterNode将其标记为疑似下线:REDIS_NODE_PFAIL。当集群中半数以上负责处理槽的主节点都将某个主节点标记为疑似下线时,那么这个主节点被在集群中广播一条标记为下线的FAIL消息。
6.3故障转移
主节点确认下线后,集群会选举出新的主节点,被选中的节点,会执行slave no one
命令,成为新的主节点,新的主节点会撤销所有对已下线的主节点的槽指派,并将这些槽全部指派给自己。新的主节点广播一条PONG消息,让集群中其他节点都指定这个节点已经变成了主节点。新的主节点开始进行命令处理,完成故障转移。
选举新的主节点的方式与Sentinel中选举领头Sentinel一致,都是使用了Raft的龙头选举方法来实现的。
7.消息
Redis集群提供了以下5种消息:
- MEET消息:加入集群消息
- PING消息:集群中每个节点每隔一秒钟会从已知节点列表中选出5个节点,然后对这5个节点中最长时间没有发送PING消息的节点发送消息。另外,如果节点A最后一次接收到节点B发送的PONG消息的时间距离当前时间已经超过节点A的cluster-node-timeout选项设置的一半,那么节点A也会向节点B发送PING消息。
- PONG消息:确认消息到达时,返回的消息。
- FAIL消息:节点下线时发送的消息
- PUBLISH消息:当节点接收到一个PUBLISH命令时,节点会执行这个命令,并向集群中广播一条PUBLISH消息,所有接收到这条PUBLISH消息的节点都会执行相同的PUBLISH命令
8.参考资料
《Redis设计与实现》