Linux 出现大量 softirq 占用 CPU（ksoftirqd 打满）的几种典型原因

9次阅读

ksoftirqd 持续高 CPU 占用本质是软中断积压，主因包括：1. 网络流量突增或异常包致 NET_RX/NET_TX 飙升；2. 存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积；3. RCU 回调积压；4. 硬件中断风暴间接诱发。

linux 中 ksoftirqd 进程持续高 CPU 占用，本质是内核软中断（softirq）处理积压，常见于网络、块设备、定时器等子系统负载过重或异常。关键不是进程本身“有问题”，而是它在拼命消化堆积的软中断任务。

网络流量突增或异常包导致 NET_RX/NET_TX 软中断飙升

这是最常见原因。当网卡收包速率远超协议栈处理能力（如突发 ddos、大量小包、TCP 乱序重传加剧）、或存在驱动兼容性问题时，NET_RX 软中断会持续触发，ksoftirqd/N 被频繁唤醒并满载。

用 cat /proc/softirqs 查看各 CPU 上 NET_RX 和 NET_TX 计数增长是否远高于其他项
检查 ethtool -S ethX 中 rx_missed_Errors、rx_over_errors 是否上升——说明网卡已丢包，软中断仍在徒劳处理
临时缓解可调大网卡 ring buffer：ethtool -G ethX rx 4096 tx 4096；长期需优化应用层收发逻辑或升级驱动

存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积

当磁盘响应慢（如高延迟 NVMe、饱和 HDD、RaiD 卡故障）、或使用了不稳定的 SCSI/ATA 驱动时，I/O 完成回调会触发 BLOCK 软中断。若完成队列积压，ksoftirqd 就会持续忙于处理完成事件。

观察 /proc/softirqs 中 BLOCK 和 BLOCK_IOPOLL 的值是否显著偏高
结合 iostat -x 1 看 %util 是否长期 100%、await 是否异常升高
检查 dmesg 是否有 “ata/N: failed command”、“nvme N: I/O timeout” 类错误；尝试更新固件或更换 I/O 调度器（如 mq-deadline 替代 bfq）

RCU 回调积压（RCU_SOFTIRQ）引发持续软中断调度

RCU（Read-copy-Update）是内核关键同步机制。当大量内核对象（如 socket、task_struct、page）被快速创建销毁，或存在 RCU callback 延迟执行（如在关中断上下文停留过久），会导致 RCU_SOFTIRQ 积压，ksoftirqd 不断被拉起处理回调。

运行 cat /proc/sys/kernel/rcu_normal 或 rcu_pending（需开启 CONFIG_RCU_PERF）确认 RCU 压力
perf record -e 'irq:softirq_entry' -g -- sleep 5 后用 perf report 查看软中断入口热点，常看到 rcu_core、__rcu_reclaim 占比高
排查是否启用了低效模块（如某些旧版 eBPF 程序、netfilter conntrack 高并发场景），或内核版本存在已知 RCU bug（如 4.19 早期某些 commit）

硬件中断风暴（IRQ storm）间接诱发软中断过载

某些异常硬件行为（如网卡 DMA 错误、PCIe 链路不稳定、老旧 usb 控制器）会导致同一 IRQ 号被反复触发，每次硬中断都会排队对应软中断。即使单次软中断处理快，高频触发仍让 ksoftirqd 无法喘息。

用 cat /proc/interrupts 观察某 CPU 上特定 IRQ 计数是否秒级暴涨（尤其对比其他 CPU）
检查 dmesg | grep -i "error|warn|pci|dma" 是否有硬件报错；尝试禁用可疑设备（如 echo 0 > /sys/bus/pci/devices/.../enable）验证
对支持 MSI-X 的设备，启用多队列并绑定到不同 CPU（echo cpu_mask > /sys/class/net/ethX/device/msi_irqs/...），避免单 CPU 被 IRQ 打爆

发表于：php框架

2026-01-17

# ai # bug # class # copy # ddos # echo # Error # ios # linux # storm # usb # 事件 # 同步机制 # 堆 # 对象 # 并发 # 栈 # 热点

复制链接

如何在mysql中插入数据_mysql插入数据SQL用法

javascript日期对象怎么用_如何格式化和计算日期【教程】

Go中适配器模式适合哪些场景_Go适配器模式实践思路

Golang泛型对性能的实际影响分析

如何在 PHP 中动态为数组添加嵌套维度

Linux 出现大量 softirq 占用 CPU（ksoftirqd 打满）的几种典型原因

网络流量突增或异常包导致 NET_RX/NET_TX 软中断飙升

存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积

RCU 回调积压（RCU_SOFTIRQ）引发持续软中断调度

硬件中断风暴（IRQ storm）间接诱发软中断过载

如何仅在默认文章类型（Post）的搜索结果页加载自定义脚本

css 想给最后一个按钮添加特殊边框怎么办_使用 :last-of-type 伪类设置边框

JavaScript事件委托如何实现_它怎样提升性能？

c# C#中的同步I/O和异步I/O在操作系统层面的区别

如何配置mysql排序规则_mysql排序规则设置

CPU steal 时间高但宿主机空闲的 vmware-tools / hypervisor 调度问题

Composer报错zlib_decode错误_解决Composer压缩包解压失败【避坑】

如何在广告脚本动态修改后准确获取标签的最终 href 值

币圈交易所App排行榜 2026最新数字货币交易平台十大排名

如何用分区切换（SWITCH PARTITION）实现历史数据归档