高可用keepalived
nginx和keepalived之间没有关系,负载均衡只是借用keepalived实现高可用
高可用的基本概念
1.什么是高可用,为什么要设计高可用?
高可用:两台机器启动着相同的业务系统,当有一台机器宕机,另外一台服务器能快速的接管,对于访问的用户是无感知的。
为什么要使用高可用?
减少系统不能提供服务的时间。
运维行业内的标准:
3个9:(1-99.9%)36524=8.76小时**,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。
4个9:(1-99.99%)36524=0.876小时=52.6分钟**,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。
5个9:(1-99.999%)3652460=5.26分钟***,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。
2.高可用的实现 硬件还是软件
高可用一般是由软件来实现的,keepalived
3.keepalived如何实现高可用?
在一个集群架构当中,负载均衡是用来连接外部信息的,假如负载均衡出现错误就会导致访问不了网站,如何快速切换实现IP地址漂移。引生出了VRRP协议
4.vrrp诞生的过程以及vrrp的原理?
如何做到出现故障自动转移,此时VRRP就应运而生,我们的VRRP其实是通过软件或硬件的形式在Master和Backup外面增加一个虚拟MAC地址(简称VMAC地址)与虚拟IP地址(简称VIP)。那么在这种情况下,PC请求VIP的时候,无论是Master处理还是Backup处理,PC仅会在ARP缓存表中记录VMAC与VIP的对应关系。
PS:VIP一般是虚拟内网ip
5.keepalived高可用使用场景?
通常业务系统需要保证7x24小时不宕机。作为业务系统来说随时随地都要求可用。
keepalived高可用的核心概念
1.主节点:
主节点(Master):优先级较高的叫做主节点,假如主节点出现故障备节点就会立马顶替
2.备节点:
备节点(Backup):优先级较低的叫做备节点。
3.抢占式:
抢占式:假如主节点出现故障后,备节点就会顶替,主节点恢复后,备节点就会被挤下去 高可用默认是抢占式
4.非抢占式:
非抢占式:假如主节点出现故障后,备节点就会顶替,主节点恢复后,备节点继续工作
5.脑裂:
脑裂:某一个节点在往组播里面发消息说我拿着VIP,可另一个节点不知道,以为他没有VIP,然后要去占用VIP,所以就会出现两个节点在抢占VIP,就会发生脑裂。
keepalived高可用的基本配置
1.安装
yum install keepalived -y
2.配置(主)
[root@lb01 ~]# cat /etc/keepalived/keepalived.conf
global_defs {
router_id lb01 #定义id名称
}
vrrp_instance VI_1 {
state MASTER #设置为主
interface eth0 #虚拟的Ip所在的网卡
virtual_router_id 50 #虚拟路由id
priority 150 #优先级给主设置的高些
advert_int 1 #每1秒发组播心跳消息,证明我还活着
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.0.0.3 #定义的虚拟内网ip地址 VIP
}
}
配置(备)
[root@lb02 ~]# cat /etc/keepalived/keepalived.conf global_defs {
router_id lb02
}
vrrp_instance VI_1 {
state BACKUP
interface eth0
virtual_router_id 50
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.0.0.3
}
}
3.启动(两个都要都要启动)
[root@lb01 ~]# systemctl start keepalived
[root@lb01 ~]# systemctl enable keepalived
4.验证
在主上面验证,主上面出现故障 备就会顶替,然后被上面就会有10.0.0.3这个虚拟IP VIP
[root@lb01 ~]# ip addr|grep 10.0.0.3
keepalived高可用地址漂移测试?
抓包
1.10.0.0.3 发送 组播数据包--->
[root@lb01 ~]# ip addr|grep 10.0.0.3
2.windows cmd查看arp -a缓存表 --->
keepalived高可用抢占式与非抢占式?
1.master故障--->backup顶上--->master恢复--->backup停止工作 抢占式 默认
2.master故障--->backup顶上--->master恢复--->backup继续工作 非抢占式
抢占式:
假如主节点出现故障后,备节点就会顶替,主节点恢复后,备节点就会被挤下去 高可用默认是抢占式
非抢占式:
假如主节点出现故障后,备节点就会顶替,主节点恢复后,备节点继续工作
运行场景:
抢占式:硬件配置不一样
非抢占式:硬件配置必须一致,业务不允许多次切换。比如:银行。害怕丢些数据
1.非抢占式
1、两个节点的state都必须配置为BACKUP(官方建议)
2、两个节点都在vrrp_instance中添加nopreempt参数
3、其中一个节点的优先级必须要高于另外一个节点的优先级。
两台服务器都角色状态启用nopreempt后,必须修改角色状态统一为BACKUP,唯一的区分就是优先级。
1.配置主
[root@lb01 ~]# cat /etc/keepalived/keepalived.conf
global_defs {
router_id lb01
}
vrrp_instance VI_1 {
state BACKUP
nopreempt
interface eth0
virtual_router_id 50
priority 150
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.0.0.3
}
}
2.配置备
[root@lb02 ~]# cat /etc/keepalived/keepalived.conf
global_defs {
router_id lb02
}
vrrp_instance VI_1 {
state BACKUP
nopreempt
interface eth0
virtual_router_id 50
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.0.0.3
}
}
keepalived高可用与Nginx集成
地址漂移实现高可用
nginx和keeplaived没有关系?
nginx需要借助keeplaived VIP 地址漂移 实现 高可用.
配置文件
场景:一台Nginx出现故障的情况下
如果Nginx宕机, 会导致用户请求失败, 但Keepalived并不会进行切换, 所以需要编写一个脚本检测Nginx的存活状态, 如果不存活则kill nginx和keepalived
1.判断nginx进程是否存在 ps aux|grep nginx|grep -v grep
2.判断nginx的端口是否存在 netstat -lntp|grep :80|wc -l
3.通过curl来模拟访问,判断访问结果是否ok curl -H Host:url.oldxu.com http://10.0.0.3
1.编写脚本
[root@lb01 ~]# mkdir /scripts
[root@lb01 ~]# vim /scripts/check_web.sh
#!/usr/bin/bash
nginx_port=$(netstat -lntp|grep :80|wc -l) #定义变量
if [ $nginx_port -ne 1 ];then #-eq等于 -ne不等于
systemctl start nginx &>/dev/null #命令执行成功为0
rc=$? #$? 一般定义的是上个命令的输出变量
sleep 3
if [ $rc -ne 0 ];then
systemctl stop keepalived
fi
fi
加执行权限
[root@lb01 ~]# chmod +x /scripts/check_web.sh
检测脚本是否运行正常
[root@lb01 ~]# sh -x /scripts/check_web.
++ netstat -lntup
++ grep :80
++ wc -l
+ nginx_port=0
+ '[' 0 -ne 1 ']'
+ systemctl start nginx
+ rc=1
+ sleep 3
+ '[' 1 -ne 0 ']'
+ systemctl stop keepalived
2.keeplaived调用该脚本
[root@lb01 ~]# cat /etc/keepalived/keepalived.conf
global_defs {
router_id lb01
}
#定义脚本名称,以及脚本所在的路径
vrrp_script check_web {
script "/scripts/check_web.sh"
interval 5 #每5秒执行一次脚本,脚本执行内容不能超过5秒,否则会被中断再次重新运行脚本
}
vrrp_instance VI_1 {
state MASTER
#nopreempt
interface eth0
virtual_router_id 50
priority 150
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.0.0.3
}
#调用脚本名称
track_script {
check_web
}
}
3.模拟nginx停止,检查nginx是否会被拉起
4.模拟nginx故障,检查keeplaived的VIP是否会漂移至备节点
keepalived高可用脑裂与故障解决?
脑裂(split-brain),指在一个高可用(HA)系统中,当联系着的两个节点断开联系时,本来为一个整体的系统,分裂为两个独立节点,这时两个节点开始争抢共享资源,结果会导致系统混乱,数据损坏。
对于无状态服务的HA,无所谓脑裂不脑裂;但对有状态服务(比如MySQL)的HA,必须要严格防止脑裂。
(但有些生产环境下的系统按照无状态服务HA的那一套去配置有状态服务,结果可想而知...)
master 10.0.0.3
backup 10.0.0.3
脑裂的原因:
- 服务器网线松动等网络故障
- 服务器硬件故障发生损坏现象而崩溃
- 主备开启firewalld防火墙,检测不到对方的心跳信息,不知对方是否存活
脑裂的解决方案:
在备上编写检测脚本, 测试如果能ping通主并且备节点还有VIP的话则认为产生了脑裂
主:10.0.0.5 备:10.0.0.6
IP地址在5和6之间跳转,就是因为主和备都在抢占VIP。
发生脑裂就会触发备上面的脚本,备就会暂停自己的高并发服务,使其主在运行。
1.编写脚本
[root@lb02 conf.d]# cat /scripts/check_spilt.sh
vip=10.0.0.3
master_ip=10.0.0.5
ping -c2 $master_ip &>/dev/null
if [ $? -eq 0 ];then
ip_check=$(ip addr | grep "$vip" | wc -l)
if [ $ip_check -eq 1 ];then
echo "脑列"
systemctl stop keepalived
fi
fi
2.给脚本执行权限
[root@lb02 ~]# chmod +x /scripts/check_spilt.sh
检验脚本的正确性
[root@lb02 ~]# sh -x /scripts/check_spilt.sh
3.备的keepalived配置文件
global_defs {
router_id lb02
}
#定义脚本名称,以及脚本路径
vrrp_script check_spilt {
script "/scripts/check_spilt.sh"
interval 3 #每3秒执行一次脚本,脚本执行内容不能超过3秒,否则会被中断再次重新运行脚本
}
vrrp_instance VI_1 {
state BACKUP
nopreempt
interface eth0
virtual_router_id 50
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.0.0.3
}
#调用脚本
track_script {
check_spilt
}
}
3.测试(主和备都开启防火墙)
开启防火墙就是为实现主无法通知组播地址说我拿着VIP,导致备以为主没拿,然后备去拿,二者开始抢占VIP
[root@lb01 ~]# systemctl start firewalld
[root@lb02 ~]# systemctl start firewalld
假如6的keepalived被暂停就说明实验成功