irqbalance 服务失效导致单核 net_rx 打满的 irq affinity 手动绑定方法

8次阅读

irqbalance默认将net_rx中断集中到CPU0,因其节能策略误判高频率网络中断为可迁移,未适配NIC多队列并行需求,导致CPU0软中断过载。

irqbalance 服务失效导致单核 net_rx 打满的 irq affinity 手动绑定方法

irqbalance 为什么会让 net_rx 中断全挤在 CPU0 上

irqbalance 默认策略偏向“节能”和“负载均衡”,但对网络中断这类高频率、低延迟敏感的 irq,它常误判为“可迁移”,把所有 net_rx 类中断(如 eth0-TxRx-0enp3s0f0-TxRx-1)集中调度到 CPU0。这不是 bug,是它的默认权重逻辑没考虑 NIC 多队列的实际并行需求。

现象通常是:top 看到 CPU0 的 si(softirq)持续 90%+,/proc/interrupts 里对应网卡的 Rx 行只在 CPU0 列有计数,其余 CPU 为 0。

  • 确认是否 irqbalance 在运行:systemctl is-active irqbalance
  • 临时停用验证效果:sudo systemctl stop irqbalance(停用后不会自动重绑,需手动操作)
  • 不要直接 kill 进程,否则 systemd 可能重启它

查清网卡支持的中断号和 CPU topology

先得知道要绑哪些中断、能绑到哪些 CPU。现代多队列网卡每队列一个 irq,编号在 /proc/interrupts 中按设备名可识别。

执行:grep -i "eth0|enp3s0f0" /proc/interrupts(替换成你的实际接口名),输出类似:

125:  124856789  0          0          0   PCI-MSI 122880-edge      eth0-TxRx-0 126:  987654321  0          0          0   PCI-MSI 122881-edge      eth0-TxRx-1 127:  876543210  0          0          0   PCI-MSI 122882-edge      eth0-TxRx-2

其中第一列 125126127 是中断号;后续四列是各 CPU(0–3)上的触发次数。

  • lscpu | grep "CPU(s)" 确认物理 CPU 数和超线程情况
  • 若启用了超线程(HT),通常建议将不同 irq 绑定到不同物理核(如 CPU0/CPU2/CPU4…),避免同核双线程争抢
  • 避免绑定到隔离核(isolcpus)或用于 real-time 任务的 CPU,除非你明确控制了调度域

手动写入 smp_affinity_list 绑定 irq 到指定 CPU

linux 内核 4.15+ 推荐用 smp_affinity_list(十进制 CPU 编号列表),比老式十六进制 smp_affinity 更直观、不易出错。

例如把 irq 125 绑到 CPU2,irq 126 绑到 CPU3,执行:

echo 2 | sudo tee /proc/irq/125/smp_affinity_list echo 3 | sudo tee /proc/irq/126/smp_affinity_list echo 4 | sudo tee /proc/irq/127/smp_affinity_list

验证是否生效:cat /proc/irq/125/smp_affinity_list 应返回 2;再看 /proc/interrupts 对应行,几秒后 CPU2 列计数应开始增长。

  • 必须用 echo + tee,直接重定向(sudo echo 2 > /proc/irq/125/smp_affinity_list)会因权限问题失败
  • 绑定后中断不会立刻切换,需等下一个数据包触发;可发 ping 或 curl 触发流量观察
  • 该设置重启即失效,需持久化(见下一条)

开机自动绑定:用 systemd service 替代 irqbalance 或 patch udev rule

最稳妥的方式是禁用 irqbalance,并用 systemd service 在网卡 up 后执行绑定。不推荐改 udev rule(易与 NetworkManager 冲突)。

新建 /etc/systemd/system/net-irq-affinity.service

[Unit] Description=Set IRQ affinity for network queues After=network.target Wants=network.target  [Service] Type=oneshot ExecStart=/bin/sh -c 'for irq in $(grep -l "eth0-TxRx" /proc/irq/*/chip 2>/dev/null | cut -d/ -f4); do echo $((irq % 4 + 2)) | tee /proc/irq/$irq/smp_affinity_list 2>/dev/null; done' RemainAfterExit=yes  [Install] WantedBy=multi-user.target

说明:$((irq % 4 + 2)) 是个简单轮转逻辑(适配 4 核),你应根据实际 CPU 数和拓扑替换为明确编号,比如 echo 2 > /proc/irq/125/smp_affinity_list 这样逐行写死更可靠。

  • 启用服务:sudo systemctl daemon-reload && sudo systemctl enable --now net-irq-affinity.service
  • 务必先 sudo systemctl disable irqbalance,否则它可能在 service 启动后又覆盖绑定
  • 如果使用 DPDK 或 kernel bypass 方案,还需检查 /sys/class/net/eth0/device/msi_irqs/ 下的映射关系,部分驱动需要额外禁用 MSI-X auto-mask

真正麻烦的不是绑定动作本身,而是网卡驱动是否如实暴露多队列、bios 是否开启 VT-d/ACS、以及 PCIe AER 错误会不会导致某队列 irq 静默失效——这些都可能让看似正确的 affinity 设置毫无效果。

text=ZqhQzanResources