vmstat procs r 队列长期大于核数但 top 无明显热点进程的分析

12次阅读

r值长期大于CPU核数但top无高CPU进程，说明进程频繁阻塞或短时运行后让出CPU；r高+us/sy低+wa高指向I/O阻塞；r高+cs异常高反映上下文切换风暴；r高+si/so非零+free偏低表明内存压力导致换页。

这种情况说明系统确实有大量进程在“排队等 CPU”，但它们并未持续占用 CPU 时间片——不是因为不忙，而是因为频繁被阻塞、切换或短暂运行后让出 CPU。单纯看 top 的 %CPU 排序会漏掉这类短生命周期、高并发、I/O 密集或调度密集型任务。

当 vmstat 的 r 持续 > CPU 核数，而 us 和 sy 合计远低于 70%，wa 却明显偏高（比如 >20%），基本可锁定为 I/O 等待导致的就绪队列堆积：

进程发起读写请求后立刻进入不可中断睡眠（b 列也会同步升高），等待磁盘/网络响应，完成后才重新进入就绪队列（r）；
top 默认按 %CPU 排序，这些进程大部分时间在 sleep，%CPU 极低，所以“隐身”了；
此时应立刻执行 iostat -x 2，重点关注 await（平均等待毫秒）、%util 和 avgqu-sz：await 持续 >10ms（SATA）或 >1ms（SSD），且 avgqu-sz > 2，就是磁盘响应慢或队列过深的明确信号。

如果 cs（每秒上下文切换数）远高于正常水平（例如 >5000/s，尤其对比 in 中断数），而 r 高、us/sy 却未饱和，说明 CPU 大量时间花在调度上，而非执行：

常见于大量短连接服务（如高并发 http API、udp 小包收发）、线程数配置过高的 java 应用、或滥用 select/poll 的程序；
每个请求触发一次 accept → read → write → close，伴随频繁的用户/内核态切换和线程唤醒/挂起；
用 pidstat -w 1 可定位具体哪个进程的 cswch/s（每秒切换次数）异常突出；优化方向包括：改用 epoll/io_uring、合并小请求、限制线程池大小、升级内核减少调度开销。

若 swpd 不为 0，且 si 或 so 持续有值（哪怕只有几 KB/s），同时 free 内存远低于物理总量（如

进程缺页时需从 swap 调入，期间进入睡眠等待 IO，醒来后才能继续排队争 CPU，进一步推高 r；
swap IO 本身又加剧 wa，形成“内存不足 → swap → I/O 等待 → r 堆积 → 调度延迟 → 响应更慢”的恶性循环；
用 free -h 和 vmstat -s | grep “page” 查缺页率，确认是否由内存泄漏、缓存配置过大（如 redis maxmemory 未设）或 jvm 堆外内存滥用导致。

单靠 top 容易误判。遇到 r 长期超标，建议按顺序执行三步：

发表于：数据库

2026-01-22

复制链接

如何在 Go 中通过结构体实例访问其字段

JavaScript日期对象如何处理_常见操作有哪些【教程】