Linux ethtool 的 ring buffer 与 offload 设置对高性能网卡的调优

2次阅读

ethtool -g 显示 rx/tx 为0是因为mellanox、intel新驱动(如mlx5_core、ice)采用分离式描述符队列模型,不支持传统ring buffer配置;需通过模块参数或ethtool –set-ring(部分固件)调整。

Linux ethtool 的 ring buffer 与 offload 设置对高性能网卡的调优

ethtool 查看 ring buffer 大小为什么总是显示 0?

很多用户执行 ethtool -g eth0 后发现 Current hardware settings 下的 RxTx 都是 0,不是网卡没配,而是驱动没暴露接口——尤其在 Mellanox ConnectX-5/6、Intel E810 这类支持多队列和硬件卸载的网卡上,传统 ring buffer 管理被绕过了。
这些网卡用的是 descriptor ring + completion queue 的分离模型,ethtool -g 只对老式驱动(如 e1000e)有效。
真正起作用的是内核模块参数或 DPDK/AF_XDP 绑定后的专用配置。

  • 检查是否启用 mq(multi-queue)模式:ls /sys/class/net/eth0/device/msi_irqs/,有多个 IRQ 条目说明已启用多队列
  • 确认驱动类型:ethtool -i eth0 | grep driver,若输出 mlx5_coreice,就别指望 -g 调整 ring 大小了
  • 对应替代方案:mlx5_core 通过 /sys/module/mlx5_core/parameters/log_max_qp 控制队列资源;ice 驱动则依赖 ethtool --set-ring(但仅部分固件版本支持)

ethtool 关闭 LRO/GRO 导致吞吐下降反而更严重?

关闭 groGeneric Receive Offload)看似能减少延迟抖动,但在高并发小包场景下,反而让 CPU 花更多 cycles 处理中断和 skb 分配——因为每个包都触发一次软中断,而 GRO 原本能把同流的几十个 TCP 段合并成一个大 skb 上送协议
这不是“开/关”二选一的问题,得看 workload 类型。

  • 适合关 GRO 的场景:AF_XDP 应用、DPDK 用户态收包、实时性要求极严的 udp 流(如音视频推流)
  • 适合开 GRO 的场景:http/https 服务、数据库复制流量、TLS 终结在内核的 LB
  • 验证影响:watch -n1 'cat /proc/net/snmp | grep -A1 Tcp | tail -1' 观察 InSegsOutSegs 差值变化;同时用 perf stat -e irq:softirq_entry,skb:kfree_skb -I 1000 看软中断频次

ethtool 设置 rx/tx offload 时哪些参数实际无效?

rx offtx off 这种粗粒度开关,在现代网卡上基本只是调用驱动的默认策略入口,不等于真禁用所有硬件卸载。
例如 Intel E810 默认开启 hw-tc-offload,即使你 ethtool -K eth0 tx off,TCP 校验和仍由硬件计算——因为校验和卸载属于 tx offload 子集,但驱动可能只响应 tx off 中的部分子项。

  • 真正可控的细粒度开关包括:rx off(禁用 LRO/GRO)、tx off(禁用 TSO/GSO)、sg off(禁用 scatter-gather)、tso off(单独关 TCP Segmentation Offload)
  • 某些 offload 无法 runtime 关闭:比如 hw-tc-offload(TC offload)必须在加载驱动前通过 modprobe ice hw_tc_offload=0 设置
  • 验证是否生效:ethtool -k eth0 | grep "offload|on|off",注意看每行末尾是 [on] 还是 [fixed] ——后者表示固件锁定,不可改

ring buffer 调优后 netstat 显示丢包没减少?

看到 netstat -s | grep -i "packet receive errors"/proc/net/devrx_dropped 不降,第一反应不是 ring 太小,而是 net.core.netdev_max_backlognet.core.somaxconn 卡住了上层接收路径。
ring buffer 只管“从硬件收上来”,后面还有软中断处理、协议栈入队、socket 接收缓冲区三道关卡。

  • 先查 backlog 是否溢出:ss -s | grep "skipped",若有非零值,说明 net.core.netdev_max_backlog 不够,需增大(如设为 5000)
  • 再看 socket 缓冲区是否满:ss -i | awk '$1 ~ /^tcp/ {print $4}' | sort | uniq -c,大量显示 rcv_space:0 表示应用读太慢
  • ring buffer 本身是否真瓶颈?用 ethtool -S eth0 | grep -E "(rx_.*_errors|rx_missed_errors)",只有 rx_missed_errors 持续上升才说明 ring 溢出

真正决定性能上限的,往往是软中断分发不均(比如所有 rx 队列都绑到同一个 CPU)或者应用层 recv() 调用频率跟不上,而不是 ring buffer 数字本身。调参前先确认瓶颈在哪一层。

text=ZqhQzanResources