摘要:
如果你一直使用RabbitMQ作为业务的消息中间件,难免会遇到网络分区(Network Partitions)的故障,也许你当时会束手无策,一脸懵逼,不过希望在看完这篇文章之后,能给你一点解决网络分区的思路。
RabbitMQ中所有节点状态的变更都会记录在日志当中,日志默认地址为:$RABBITMA_HOME/var/log/rabbitmq/rabbit@node*.log。所以当网络分区发生的时候可以根据日志内容来推测出当时发生网络分区的原因,进而据此优化你的业务逻辑,增强应用的鲁棒性。
本文只展示在模拟发生网络分区前后的日志对比,方便在查看日志的时候可以提供一个参考。
本文之后的RabbitMQ集群有两个节点组成,分别为rabbit@node1和rabbit@node2。
模拟网络分区的方法:关闭node2节点的网卡(ifdown eth0),之后再恢复。注:测试采用的两个节点都是单网卡的。
网络分区的恢复方法:关闭node2节点(rabbitmqctl stop),之后再恢复node节点(rabbitmq-server -detached)即可恢复网络分区。
网络分区的查看方式:rabbitmqctl cluster_status命令之后查看partititons中是否有相关节点信息。或者也可以通过WebUI的方式查看。
具体执行步骤以及两个节点的日志对比如下所示。
1.在node2上执行ifdown eth0。
node1中打印日志如下
node2打印日志:
之后如果不执行任何操作,node2每隔1min会打印日志(忽略下面的具体日期):
2.在node2上执行ifup eth0。
node1之后打印日志如下:
node2打印日志:
3.此时在node1上执行rabbitmqctl cluster_status可以看到:
4.此时在node2上执行rabbitmqctl cluster_status可以看到:
此时可以判断已经出现了网络分区,之后恢复网络分区。
5.在node2上执行rabbitmqctl stop之后。
可以看到node1的日志:
note2中的日志:
6.在node2上执行rabbitmq-server -detached以恢复网络分区。
此时node1的日志为:
此时node2的日志为:
此时可以在任何一个节点中输入rabbitmqctl cluster_status命令
之后可以看到:
只要看到partitions中没有任何节点信息即表示网络分区消失。