Linux Keepalived 虚拟 IP 配置实战

7次阅读

keepalived主备角色由state与priority共同决定;state backup配合preempt_delay更安全;virtual_router_id必须唯一且为1–255整数;健康检查脚本须返回0才视为正常。

Linux Keepalived 虚拟 IP 配置实战

Keepalived 配置文件里 vrrp_instancestate 值不能随便设

主备角色不是靠谁先启动决定的,而是由 state 配置项 + priority 共同锁定的。设成 BACKUP 却没配 preempt_delay,一重启就抢 VIP,下游连接直接断。

  • state MASTER 表示“我默认就是主”,但实际是否真能持有 VIP,还要看 priority 是否最高、网络是否通、track_script 是否通过
  • state BACKUP 更安全,配合 preempt_delay 30 可避免脑裂或频繁切换;即使本机 priority 最高,也会等 30 秒再抢
  • 两台都写 state MASTER?会同时发 VRRP 广播,交换机可能学习到两个 MAC 映射同一 IP,流量乱转

检查 virtual_ipaddress 是否生效,别只看 keepalived 进程在不在

进程 running ≠ VIP 已绑定。常见现象是日志里有 Registering IP address,但 ip addr show 看不到,或者 ping 不通 —— 很可能被内核参数拦住了。

  • 确认网卡开启了 arp_ignorearp_announcesysctl net.ipv4.conf.all.arp_ignore 应为 1net.ipv4.conf.all.arp_announce 应为 2
  • virtual_ipaddress 必须写成 192.168.1.100/24 dev eth0 这种带掩码和设备的形式,漏掉 /24dev eth0,keepalived 会静默忽略该行
  • 如果用的是云服务器(如阿里云、腾讯云),虚拟 IP 通常不支持——它们禁用了免费 ARP 和 VRRP 报文,配置再对也绑不上

健康检查脚本返回值写错,VIP 就永远卡在备机上

track_script 的退出码直接决定 keepalived 是否降级:必须是 0 表示健康,非 0(哪怕只是 1)就触发故障转移。很多人写完脚本没测退出码,结果服务明明正常,VIP 却飘走了。

  • 脚本末尾加 exit 0 显式收尾,别依赖最后一条命令的返回值(比如 curl -f 失败时返回非 0,但你后面又跟了 echo ok,整个脚本退出码就变成 0 了)
  • 脚本里用 curl 检查本地 nginx,记得加 -s -f -m 2:静默、失败报错、超时 2 秒,否则 hang 住会导致 keepalived 认为检查超时而反复重试
  • 脚本路径要绝对路径,且 keepalived 启动用户(通常是 root)必须有执行权限;用 systemctl status keepalived 看日志,搜索 track_exec 能看到真实调用命令和返回码

多实例共用一个 VIP?必须用 virtual_router_id 区分

同一个局域网里,所有 Keepalived 实例的 virtual_router_id 必须唯一。设成一样的,不同业务的 VRRP 包会互相干扰,出现 VIP 随机漂移、主备倒置、甚至两台同时 hold 住 IP。

  • virtual_router_id 是个 1–255 的整数,不是字符串10"10" 在配置里等价,但别写成 010(八进制解析后变 8)
  • 不同业务线建议按用途编号:Web 层用 51,DB 代理层用 52,避免后期扩容时撞 ID
  • 改完 virtual_router_id 必须 reload(kill -USR1 $(cat /var/run/keepalived.pid)systemctl reload keepalived),不能只改配置不触发重载,旧 ID 还在跑

真正麻烦的从来不是写几行配置,而是当三台机器、两个实例、一套健康检查混在一起时,virtual_router_id 写串了、track_script 权限没给、云厂商底层拦截了 VRRP —— 这些点不一个个敲实,VIP 看似飘得优雅,其实随时会断流。

text=ZqhQzanResources