Linux flannel 的 –iface 与 –public-ip 的多网卡绑定问题解决

3次阅读

flannel –iface 参数仅按接口字符串精确匹配,不检查ip可达性;–public-ip 会绕过网卡探测直接使用指定ip,但需确保该ip已绑定到本地网卡;mtu须与–iface对应网卡一致;启动前需确保网卡已就绪。

Linux flannel 的 –iface 与 –public-ip 的多网卡绑定问题解决

flannel –iface 参数到底匹配哪张网卡

它不看 IP 是否可达,只按 ifconfigip link 输出的接口名字符串精确匹配。比如你用 ens192,但系统实际是 ens192.100(带子接口)或 enp5s0f0(新命名规则),就会静默失败,flannel 退回到默认路由网卡 —— 这正是多网卡环境里最常踩的坑。

实操建议:

  • 启动前先运行 ip -o link show | awk '{print $2}' | sed 's/://' | grep -v '^lo$',确认真实接口名
  • 避免用通配符或模糊名(如 eth*),--iface 不支持 glob
  • 如果用 NetworkManager 或 cloud-init,接口名可能动态生成,建议在 systemd unit 里加 ExecStartPre=/bin/sleep 2 等待稳定

flannel –public-ip 和 –iface 同时设置时的优先级

--public-ip 会完全绕过 --iface 的网卡探测逻辑:flannel 直接把这个 IP 当作本机对外地址写入 etcd,不再查该网卡的 IPv4 地址。但副作用明显 —— 如果 --public-ip 所指 IP 不在本地任何接口上(比如填了 VIP、NAT 后的公网 IP),flannel 能启动,但 backend(如 vxlan)发包会因源地址不可路由而丢弃。

常见错误现象:journalctl -u flanneld | grep "failed to send" 或容器间 ping 通但 TCP 连接超时。

实操建议:

  • 仅当节点有固定公网 IP 且该 IP 已绑定到某块网卡(如 ip addr add 203.0.113.5/24 dev ens192)时,才设 --public-ip
  • 若用 NAT 或云厂商 SLB,必须用 --iface + 真实内网接口,让 flannel 自动取其主 IP
  • --public-ip--iface 不要混用指向不同网段的地址,否则 etcd 里存的 Node.HostIP 和实际路由不一致

多网卡场景下 vxlan backend 的 MTU 错配问题

flannel 默认假设底层网卡 MTU 是 1500,但如果你的业务网卡启用了 jumbo frame(如 9000),而管理网卡仍是 1500,--iface 指向后者时,flannel 仍会按 1500 配置 vxlan 设备,导致跨网卡通信时大包被 silently 丢弃。

验证方法:ip link show flannel.1 | grep mtu,再对比对应物理网卡的 MTU。

实操建议:

  • 强制统一 MTU:在 flannel 启动参数加 --mtu=9000(值需与 --iface 对应网卡一致)
  • 不要依赖 host-gw backend 做“绕过”——它虽不封包,但要求所有节点二层互通,多网卡 VLAN 隔离时反而更难调
  • 云环境(如 AWS)注意:ENI 的 MTU 可能被平台限制为 9001,需显式设 --mtu=9001

systemd 启动时网卡未就绪导致 flannel 绑定失败

flannel 启动极快,常抢在 NetworkManager 或 dhcp 完成前读取接口状态,结果 --iface 匹配不到,回退到默认路由网卡(通常是 docker0 或 lo),后续所有容器网络全错。

典型日志:Failed to find Interface "ens192": route ip+net: no such network interface,但 ip a 手动看明明存在。

实操建议:

  • 在 flannel 的 systemd unit 文件中添加:After=network-online.targetWants=network-online.target
  • 确保 /etc/systemd/system/network-online.target.wants/ 下有对应网管服务(如 NetworkManager-wait-online.service
  • 测试时用 systemctl start flanneld && systemctl status flanneld -n 20 看首行是否含 “using interface xxx”

多网卡绑定不是选哪个参数更“高级”,而是让 flannel 看到的接口名、IP、MTU、就绪时机四者严格对齐。少一个对齐,k8s node 就可能变成网络黑洞 —— 表面健康,实际只通 ICMP。

text=ZqhQzanResources