Linux 多核 CPU 如何调度进程?

12次阅读

CFS调度器基于vruntime选择进程:红黑树中vruntime最小者优先运行,新进程vruntime设为队列最小值避免插队;实时进程绕过CFS;多核负载均衡有延迟阈值;绑定CPU或NO_HZ_FULL会改变调度行为。

Linux 多核 CPU 如何调度进程?

linux 的 CFS 调度器怎么选进程运行?

CFS(Completely Fair Scheduler)是 Linux 默认的进程调度器,它不按“时间片轮转”硬切,而是基于虚拟运行时间 vruntime 做公平调度。每个可运行进程被放入红黑树,vruntime 最小的那个(即“最该被调度”的)总在树最左端,调度器每次从那里取任务。

  • vruntime 是按进程实际 CPU 使用时间加权计算的,权重由 nice 值决定:nice 越低(优先级越高),权重越大,vruntime 增长越慢,更容易被选中
  • 新进程的 vruntime 默认设为当前运行队列的最小 vruntime,避免“插队”但也不至于太滞后
  • 如果你用 chrt -f 50 启动实时进程,它会绕过 CFS,走 SCHED_FIFO 调度类,此时 CFS 完全不参与——这点常被误认为“CPU 被占满”,其实是调度类切换导致的

多核下进程为什么会“卡”在一个 CPU 上?

Linux 默认启用负载均衡,但不是每毫秒都搬进程。内核按一定周期(如 1–4 ms)检查各 CPU 的运行队列长度和 vruntime 差异,只在差异超过阈值时才迁移任务。这意味着:

  • 短时突发负载可能让某个 CPU 持续忙 10 ms,而其他核空闲——这不是 bug,是延迟优化策略
  • taskset -c 0,1 ./a.outnumactl --cpunodebind=0 会显式绑定 CPU,此时即使其他核空闲,进程也不会被迁走
  • 如果看到 top 中某进程的 %CPU 长期接近 100% 且只跑在单核,先用 ps -o pid,psr,comm -p $PID 确认是否被绑核,而不是直接怀疑调度器失灵

如何判断是不是调度延迟导致响应变慢?

真正的调度延迟(scheduling latency)往往藏在上下文切换开销或抢占失效里,而不是“没轮到”。常用排查点:

  • 查看 /proc/sys/kernel/sched_latency_ns(默认 ~6 ms)和 /proc/sys/kernel/sched_min_granularity_ns(默认 ~0.75 ms):粒度越小,调度越频繁,但上下文切换开销越大
  • perf sched latency -s max 抓最长调度延迟事件,若出现 >5 ms 的“R → R”(就绪态到运行态)延迟,再结合 perf record -e 'sched:sched_switch' 看是否被高优先级中断或软中断阻塞
  • 注意:启用了 NO_HZ_FULL(即“无滴答”模式)的 CPU,如果跑的是独占型实时任务,内核会停掉该核的定时器,此时 sched_latency_ns 参数完全不生效

多核调度的复杂性不在算法本身,而在它必须同时应对 NUMA 内存访问代价、中断亲和性、cgroup 资源限制、以及用户空间对 CPU 绑定的隐式依赖——这些因素一旦叠加,vruntime 就只是个起点,不是全部答案。

text=ZqhQzanResources