Linux 内核调度策略优化方法

2次阅读

判断进程是否启用实时调度策略最直接的方法是查看 /proc/[pid]/status 中的 policy 字段,但需结合 chrt -p [pid] 将数字策略值转为 sched_fifo 等名称;ps 输出的 cls 字段虽可提示,但 rtprio=0 不代表未用实时策略;普通用户需 root 权限或配置 rlimit_rtprio(如 ulimit -r 99 或 /etc/security/limits.conf)才能设置实时策略;sched_fifo 进程若失控会导致系统无响应,应通过 cgroups v2 限流(如 cpu.max=80000 100000)或写 /proc/[pid]/status 降级;rt 与 cfs 共存时,内核每 1ms 调度一次,只要有就绪 rt 任务即抢占,cfs 无法竞争;建议仅对真正需要微秒级确定性的线程启用 rt 策略,多数场景用 sched_batch+绑定更安全。

Linux 内核调度策略优化方法

如何判断当前进程是否用了实时调度策略

/proc/[pid]/status 里的 Statepolicy 字段最直接。但很多人漏掉关键点:policy 值是数字,得查内核头文件或用 chrt -p [pid] 才能对应到 SCHED_FIFOSCHED_RR 这类名称。

  • chrt -p 123 输出里如果显示 sched policy: SCHED_FIFO,说明已启用实时策略
  • 仅靠 ps -eo pid,cls,rtprio,comm 不够可靠——cls 显示 FFRR 是对的,但 rtprio 为 0 可能只是没设优先级,不代表没用实时策略
  • 普通用户执行 chrt 查别人进程会 Permission denied,得用 root 或 sudo chrt -p [pid]

设置 SCHED_FIFO 时为什么总报 Operation not permitted

不是权限不够,而是没开 RLIMIT_RTPRIO 限制或没进 real-time group。内核默认禁止普通进程提权到实时调度,这是安全机制,不是 bug

  • 检查当前限制:ulimit -r,输出 -1 表示不限制;若为 0chrt -f 50 ./a.out 必然失败
  • 临时提升:ulimit -r 99(需在启动目标进程前执行)
  • 永久方案:在 /etc/security/limits.conf* soft rtprio 99* hard rtprio 99,并确认 PAM 的 pam_limits.so 已启用
  • 注意:systemd 服务绕过 ulimit,得在 service 文件里加 LimitRTPRIO=99

realtime 进程卡死导致系统无响应怎么办

实时进程不主动让出 CPU,又没做超时控制,就可能把所有 CPU 核占满,连 ssh 都连不上。这不是调度器坏了,是设计如此。

  • 上线前必须加 sched_rr_get_interval() 或固定 nanosleep(),避免纯 while(1) 循环
  • cgroups v2 限流更稳妥:创建 /sys/fs/cgroup/rt/ 下的子组,写入 cpu.max = 80000 100000(即最多用 80% CPU 时间)
  • 别依赖 kill -9——SCHED_FIFO 进程可能忽略信号,优先试 echo 0 > /proc/[pid]/status(需 root),或重启 cgroup 控制组
  • 监控手段:定期跑 ps -eo pid,tid,cls,rtprio,time,comm --sort=-time | head -20,看 runtime 是否异常增长

RT 策略和 CFS 共存时的 CPU 时间分配逻辑

内核不是“先跑完 RT 再跑 CFS”,而是每 1ms 做一次调度决策:只要队列里有 SCHED_FIFOSCHED_RR 就绪任务,它就一定被选中,CFS 任务只能等它们阻塞或耗尽时间片。

  • SCHED_RR 的时间片由内核定(通常 100ms),不可调;SCHED_FIFO 完全不切,直到主动 sleep/yield/block
  • 哪怕 CFS 进程 nice 值是 -20,也抢不过 priority=1 的 FIFO 进程——nice 对实时策略无效
  • 验证方法:用 perf sched latency 看 CFS 任务的最高延迟,若超过 10ms,大概率有未受控的 RT 进程在捣乱
  • 混用场景下,建议把 RT 进程绑到特定 CPU(taskset -c 0-1 chrt -f 50 ./rt_app),给 CFS 留出干净核

真正难的不是设参数,是想清楚哪个线程真需要微秒级确定性——多数所谓“实时”需求,其实用 SCHED_BATCH + ionice + CPU 绑定就够了。硬上 SCHED_FIFO 反而容易因一个 bug 拖垮整机。

text=ZqhQzanResources