SELinux setroubleshootd 服务异常高的 CPU 占用排查

8次阅读

setroubleshootd 持续高CPU需先确认是否伴随大量AVC denied日志,再停服务、清数据库;根治须查清拒绝原因并修正策略或应用行为,而非禁用SElinux

SELinux setroubleshootd 服务异常高的 CPU 占用排查

确认 setroubleshootd 是否真在吃 CPU

别急着关服务,先看它是不是“真凶”。tophtop 里看到 setroubleshootd(注意不是 setroubleshoot)持续占 30%+ CPU,且伴随频繁日志刷屏(/var/log/audit/audit.log/var/log/messages 里大量 AVC denied 记录),才算典型症状。如果只是偶发尖峰、无 audit 拒绝日志,可能是其他进程伪造了进程名,或 SELinux 正在回溯分析历史事件——这时杀掉服务反而掩盖真实问题。

临时止血:快速禁用 setroubleshootd 而不关 SELinux

多数场景下,你不需要它实时分析——setroubleshootd 是个诊断辅助进程,不是 SELinux 本身。停它不影响策略 enforcement,只丢掉友好的中文报错提示

  • sudo systemctl stop setroubleshootd(立即生效)
  • sudo systemctl disable setroubleshootd(重启不自启)
  • 顺手清理积压: sudo rm -f /var/lib/setroubleshoot/*.sqlite(避免重启后重解析旧日志)

⚠️ 别直接 setenforce 0 或改 /etc/selinux/config——这会彻底关闭强制访问控制,安全降级,且很多 openEuler/AlmaLinux 默认要求 SELinux enabled,强行 disabled 可能导致 systemd 服务启动失败。

根治思路:查清为什么它狂转

setroubleshootd 高 CPU 的本质是它在反复解析 audit 日志里的 AVC 拒绝事件。高频拒绝 = 策略不匹配或应用行为异常。

  • 先看最近拒了啥:sudo ausearch -m avc -ts recent | audit2whyrecent 支持 10m1h 等,比翻日志快)
  • 常见诱因:Web 服务尝试写 /var/www 但上下文是 httpd_sys_content_t;容器挂载宿主机目录权限未适配;python 脚本调用 subprocess 启动新进程触发类型转换失败
  • 临时放行测试:sudo ausearch -m avc -ts recent | audit2allow -M mypolicysudo semodule -i mypolicy.pp(仅用于验证,勿直接上生产)

真正该修的是应用行为或 SELinux 策略,不是让 setroubleshootd 一直跑着翻译错误。

openEuler/AlmaLinux 下的特殊注意点

这些发行版默认启用 SELinux 且使用 targeted 策略,但 setroubleshootd 的资源占用逻辑和 centos 7 不同:它会在 Permissive 模式下仍全量解析 audit 日志,导致 CPU 占用不降反升——因为拒绝变警告,日志量更大。

  • 检查真实模式:getenforce 显示 Permissive,但 cat /etc/selinux/config | grep SELINUX=disabled?说明内核参数或 grub 强制启用了,需查 boot/grub2/grub.cfg 里有没有 selinux=1
  • 若确定不用诊断功能,卸载更干净:sudo dnf remove setroubleshoot-server setroubleshoot-plugins(openEuler 22.03+)

真正麻烦的不是 CPU 高,而是你关了它之后,下次 AVC 拒绝没人提醒你——得靠定期 ausearch -m avc -ts today 主动巡检,否则问题会悄悄积累到某天崩掉一个关键服务。

text=ZqhQzanResources