Linux 高负载排查流程与方法

1次阅读

负载是否真高需先除以cpu核数判断；再结合%wa、iostat、strace等区分cpu/i/o瓶颈；关注available内存而非free；排除d状态进程、句柄泄漏及内核/硬件问题。

Linux 高负载排查流程与方法

怎么看负载是不是真高

别一看到 load average: 5.2, 4.8, 3.1 就慌——得先除以 CPU 核数。运行 nproc 或 grep -c processor /proc/cpuinfo 确认逻辑核数，比如是 4 核，那 1 分钟负载 5.2 ÷ 4 = 1.3，说明已有排队；但如果是 16 核，1.3 就完全正常。

容易踩的坑：

把 uptime 里的三个值当成“越来越严重”：其实 15 分钟值低、1 分钟值高，恰恰说明是刚爆发的新压力，要立刻盯进程，而不是等它自己回落
忽略 D 状态进程：ps aux | awk '$8 ~ /D/ {print}' 能筛出不可中断睡眠的进程，它们不占 %CPU 却推高 load，常因 NFS 挂载卡死或磁盘响应超时导致
误判“负载=CPU 使用率”：load 高但 %us 和 %sy 都很低，%wa 却飙到 60%，那问题根本不在 CPU，而在 I/O

怎么快速分清是 CPU 还是 I/O 瓶颈

打开 top 后别只盯着 %CPU 列排序——先看顶部的 %Cpu(s) 行：us 高 → 用户态计算密集；sy 高 → 频繁系统调用（如大量 fork、epoll_wait）；wa 高 → CPU 在干等磁盘或网络返回。

实操建议：

vmstat 1 5 看 r（就绪队列长度）和 wa：若 r 长期 > CPU 核数且 wa > 10%，基本锁定 I/O
iostat -x 1 3 关键看 %util 和 await：%util > 90% 表示设备饱和；await > 10ms 表示单次 I/O 响应慢，可能是磁盘老化、RAID 卡缓存关闭、或云盘 IOPS 配额打满
如果 %wa 高但 iostat 显示磁盘一切正常？立刻查网络：用 iftop -P tcp 或 nethogs 看是否有进程在疯狂发包或建连接

怎么精准定位到具体线程或系统调用

找到高消耗进程 PID 后，下一步不是直接 kill，而是确认它到底在干什么。Java 应用尤其容易卡在某个线程里，光看进程级 CPU 占用会漏掉热点。

实操建议：

查线程级 CPU：top -Hp <pid></pid>，按 P 排序，记下高占用线程的 TID
Java 进程要把 TID 转成十六进制：printf "%xn" <tid></tid>，再用 jstack <pid> | grep -A10 <hex_tid></hex_tid></pid> 定位堆栈，看是不是死循环、正则回溯、或 synchronized 锁争抢
通用追踪：strace -tt -T -p <pid> -o /tmp/trace.log</pid>，重点观察是否卡在 read、futex、epoll_wait 上——卡在 futex 通常意味着锁竞争；卡在 read 且没返回，可能后端服务无响应或 socket 缓冲区堵死
别忘了检查文件句柄：lsof -p <pid> | wc -l</pid>，超过系统限制（如 65535）会导致新建连接失败、日志写不进，表现为“看起来没报错但功能异常”

为什么 free -h 的 available 比 free 更关键

很多人看到 free 列显示还有 200MB 就觉得内存够用，结果 available 只剩 30MB，系统已经开始频繁触发 kswapd 或 OOM Killer。

原因很简单：free 是当前未被任何进程使用的物理内存，而 available 是内核估算出的、能在不触发 swap 的前提下还能分配给新进程的内存量，它已扣除 page cache 中难以回收的部分（比如 dirty page、mmap 映射页）。

容易被忽略的点：

dmesg | grep -i "killed process" 必须查——哪怕 available 没归零，只要某次内存分配请求无法满足，OOM Killer 就会按评分杀掉进程，日志里留痕但业务可能已丢数据
buff/cache 高 ≠ 内存紧张：linux 会主动用空闲内存做缓存，只要 available 充足，这是健康行为；但若 available 持续低于总内存 10%，且 vmstat 中 si/so 不为 0，才是真缺内存
某些容器环境（如 docker）中，available 计算受 cgroup memory limit 影响，free -h 看的是宿主机视角，需配合 cat /sys/fs/cgroup/memory/memory.usage_in_bytes 对齐

最麻烦的情况，是 load 高、CPU 使用率不高、I/O 看不出异常、内存也够——这时候得怀疑是不是内核模块 bug、硬件故障（如内存 ECC 报错）、或者 hypervisor 层资源争抢。这些没法靠几个命令秒定，但至少能帮你排除掉 90% 的常见误判。

发表于：运维

近一天内

复制链接

css 想制作登录框居中怎么办_position absolute transform translate

C# XmlDocument Save自动缩进 Formatting.Indented设置

Linux swap 分区管理与优化

html5如何让div浮在另一个div上

PHP怎样使用WebSocket_使用WebSocket实现实时通信【服务】

Linux 高负载排查流程与方法

怎么看负载是不是真高

怎么快速分清是 CPU 还是 I/O 瓶颈

怎么精准定位到具体线程或系统调用

为什么 free -h 的 available 比 free 更关键

composer怎么解决命令行中文乱码_composer字符编码设置【避坑】

币安Binance最新版本下载币安手机端2026官方安全安装方式

优酷苹果怎么关html5_ios设备关闭html5设置指南【指南】

PHP5.6执行PY缺扩展咋补_旧版兼容问题处理说明【详解】

Highcharts 中为多维数据系列自定义 Tooltip 标签的正确用法

PHP类属性怎样访问_PHP访问类属性方法【方法】

HTML5颜色选择器怎么用_HTML5inputtypecolor取值与样式修改说明【介绍】

composer下载中断怎么办_composer断点续传或重试方法

HTML5表单验证码怎么防刷_HTML5前端验证码生成与校验简单实现教程【操作】

SQL 事务隔离级别性能优化技巧与方法