Linux 出现大量 softirq 占用 CPU(ksoftirqd 打满)的几种典型原因

9次阅读

ksoftirqd 持续高 CPU 占用本质是软中断积压,主因包括:1. 网络流量突增或异常包致 NET_RX/NET_TX 飙升;2. 存储 I/O 压力大或驱动异常引发 BLOCK 软中断积;3. RCU 回调积压;4. 硬件中断风暴间接诱发。

Linux 出现大量 softirq 占用 CPU(ksoftirqd 打满)的几种典型原因

linuxksoftirqd 进程持续高 CPU 占用,本质是内核软中断(softirq)处理积压,常见于网络、块设备、定时器等子系统负载过重或异常。关键不是进程本身“有问题”,而是它在拼命消化堆积的软中断任务。

网络流量突增或异常包导致 NET_RX/NET_TX 软中断飙升

这是最常见原因。当网卡收包速率远超协议处理能力(如突发 ddos、大量小包、TCP 乱序重传加剧)、或存在驱动兼容性问题时,NET_RX 软中断会持续触发,ksoftirqd/N 被频繁唤醒并满载。

  • cat /proc/softirqs 查看各 CPU 上 NET_RXNET_TX 计数增长是否远高于其他项
  • 检查 ethtool -S ethXrx_missed_Errorsrx_over_errors 是否上升——说明网卡已丢包,软中断仍在徒劳处理
  • 临时缓解可调大网卡 ring buffer:ethtool -G ethX rx 4096 tx 4096;长期需优化应用层收发逻辑或升级驱动

存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积

当磁盘响应慢(如高延迟 NVMe、饱和 HDD、RaiD 卡故障)、或使用了不稳定的 SCSI/ATA 驱动时,I/O 完成回调会触发 BLOCK 软中断。若完成队列积压,ksoftirqd 就会持续忙于处理完成事件

  • 观察 /proc/softirqsBLOCKBLOCK_IOPOLL 的值是否显著偏高
  • 结合 iostat -x 1%util 是否长期 100%、await 是否异常升高
  • 检查 dmesg 是否有 “ata/N: failed command”、“nvme N: I/O timeout” 类错误;尝试更新固件或更换 I/O 调度器(如 mq-deadline 替代 bfq

RCU 回调积压(RCU_SOFTIRQ)引发持续软中断调度

RCU(Read-copy-Update)是内核关键同步机制。当大量内核对象(如 socket、task_struct、page)被快速创建销毁,或存在 RCU callback 延迟执行(如在关中断上下文停留过久),会导致 RCU_SOFTIRQ 积压,ksoftirqd 不断被拉起处理回调。

  • 运行 cat /proc/sys/kernel/rcu_normalrcu_pending(需开启 CONFIG_RCU_PERF)确认 RCU 压力
  • perf record -e 'irq:softirq_entry' -g -- sleep 5 后用 perf report 查看软中断入口热点,常看到 rcu_core__rcu_reclaim 占比高
  • 排查是否启用了低效模块(如某些旧版 eBPF 程序、netfilter conntrack 高并发场景),或内核版本存在已知 RCU bug(如 4.19 早期某些 commit)

硬件中断风暴(IRQ storm)间接诱发软中断过载

某些异常硬件行为(如网卡 DMA 错误、PCIe 链路不稳定、老旧 usb 控制器)会导致同一 IRQ 号被反复触发,每次硬中断都会排队对应软中断。即使单次软中断处理快,高频触发仍让 ksoftirqd 无法喘息。

  • cat /proc/interrupts 观察某 CPU 上特定 IRQ 计数是否秒级暴涨(尤其对比其他 CPU)
  • 检查 dmesg | grep -i "error|warn|pci|dma" 是否有硬件报错;尝试禁用可疑设备(如 echo 0 > /sys/bus/pci/devices/.../enable)验证
  • 对支持 MSI-X 的设备,启用多队列并绑定到不同 CPU(echo cpu_mask > /sys/class/net/ethX/device/msi_irqs/...),避免单 CPU 被 IRQ 打爆
text=ZqhQzanResources