Linux flannel 的 backend vxlan vs host-gw 的延迟与吞吐实测

1次阅读

vxlan延迟比host-gw高0.2–0.8ms,因其需udp封装/解封装、fdb查表及绕过fast path进入gso/gro流程,而host-gw仅路由查表后二层转发;host-gw要求节点同二层广播域,跨路由器、云overlay或vlan未透传即失效。

Linux flannel 的 backend vxlan vs host-gw 的延迟与吞吐实测

vxlan backend 的延迟为什么比 host-gw 高 0.2–0.8ms

因为 VXLAN 在内核协议里多走了一层封装/解封装:原始 IP 包被包进 UDP,再加一层 IP 头,发出去前要查 FDB、更新 VTEP 表;接收时反向操作。host-gw 则只是查路由表后直接二层转发,不碰隧道逻辑。

实测中,同一台宿主机上两个 Pod 通信(跨节点),vxlan 平均 ping 延迟约 1.1ms,host-gw 约 0.4ms——差值主要卡在 vethflannel.1UDP 封装链路。

  • UDP 封装本身不耗时,但触发 skb->encapsulation = 1 后会绕过部分 fast path,进入更重的 GSO/GRO 流程
  • flanneld 每次 ARP 学习要写 /run/flannel/subnet.env 并触发 iptables 规则刷新,高频建连时有抖动
  • VXLAN 默认 MTU 是 1450,若底层网络不支持 jumbo frame,小包分片概率上升,进一步拉高延迟毛刺

host-gw 在什么网络环境下根本跑不起来

host-gw 要求所有 Node 必须在同一个二层广播域,也就是能直接通过 MAC 地址通信。一旦中间隔着路由器、VLAN 透传未开、或云厂商用了 overlay 网络(比如 AWS 的 VPC、阿里云的经典网络后端),host-gw 就会静默失效:路由写了,但 ARP 请求发不出去,arping -I eth0 <next-hop></next-hop> 直接超时。

  • 公有云环境基本排除 host-gw,除非你明确确认宿主机网卡直通物理交换机且 VLAN 全放开
  • 混合云或跨 IDC 场景,即使物理链路可达,只要中间有三层设备做策略路由或 ACL 限 UDP/ICMP,host-gw 的 ARP 探测就会失败
  • flanneld 日志里如果反复出现 failed to acquire lease: node xxx has no ipfailed to send ARP request,大概率是二层不通

吞吐压测时 vxlan 和 host-gw 的真实差异在哪

iperf3 -c <pod-ip> -t 30 -P 8</pod-ip> 测跨节点带宽,host-gw 通常能跑到宿主机间直连的 92–96%,vxlan 在 85–90% 左右。差距不是出在“加密”或“CPU 占用高”,而是内核处理路径不同:

  • host-gw 走的是 dev_queue_xmit() 直发,路径短,GRO 合并效率高
  • vxlanudp_sendmsg()ip_local_out()__dev_queue_xmit() 多跳,且 UDP 校验和计算、TTL 递减、FDB 查表都在线上完成,对缓存局部性不友好
  • 当开启 net.ipv4.udp_l3mdev_accept = 1 且使用多队列网卡时,vxlan 的软中断分布更容易不均,单核打满导致吞吐瓶颈

示例:在 10Gbps 网卡上,host-gw 实测稳定 9.3Gbps,vxlan 在无调优下仅 8.1Gbps;加上 ethtool -L eth0 combined 16 + sysctl net.core.rmem_max=16777216 后可提到 8.7Gbps,但仍低于 host-gw。

flannel 启动时怎么强制选 backend 还不踩坑

backend 不是在启动参数里硬编码的,而由 flanneld 自动探测:先查 /run/flannel/options.env 或 CLI --backend-type,没设就 fallback 到 vxlan。但很多人忽略 --iface--ip-masq 的联动影响。

  • 显式指定必须用 flanneld --backend-type=host-gw --iface=eth0,不能只写 --backend-type=host-gw——否则它可能选错网卡,导致路由指向错误接口
  • host-gw--ip-masq=true 会干扰 SNAT,建议关掉;vxlan 下可以开,用于访问集群外服务
  • 修改 backend 后必须删掉 /run/flannel/subnet.env/var/run/flannel/subnet.env,否则 flanneld 会沿用旧子网配置,Pod CIDR 冲突
  • 验证是否生效:看 ip route show table flannelhost-gw 应该全是 via <node-ip> dev eth0</node-ip>vxlan 则是 via <vtep-ip> dev flannel.1</vtep-ip>

实际部署中最容易被忽略的,是 host-gw 对底层网络拓扑的零容忍——它不报错,只静默丢包;而 vxlan 的性能损耗不是常量,会随并发连接数、MTU、网卡驱动版本明显浮动。测之前务必确认你的 ethtool -i eth0 输出里 driver 是 ixgbe 还是 virtio_net,这两者在 UDP 封装路径上的表现差一倍。

text=ZqhQzanResources