Linux 性能分析的系统性思路

11次阅读

性能问题应先看CPU、内存、IO、网络四类关键指标,再依现象反推瓶颈类型:如%wa>5%指向磁盘,available≈0且swap启用说明内存瓶颈,r值持续>CPU核心数需结合us/sy/wa判断,%util>80%且await远高于svctm表明磁盘队列积压,rxdrop/txerr上升提示网卡驱动或缓冲区问题;top仅显示进程级CPU,须用top -H查线程、perf top -k查内核态、/proc/interrupts查中断源;需用sar、pidstat等采集时间序列数据,避免快照误判;工具使用应以证伪当前假设为前提,避免过度分析。

Linux 性能分析的系统性思路

性能问题到底出在哪儿?先看这四个关键指标

别一上来就跑 top 狂按 P 排序,真正的系统性思路是从现象反推瓶颈类型。CPU 高、内存吃紧、IO 等待长、网络延迟大——这四类表现对应完全不同的排查路径。比如 %wavmstat 里持续 >5%,基本可以排除 CPU 密集型问题,直接切到磁盘子系统;而 free -m 显示 available 接近 0 且 swap 开始使用,说明内存已成瓶颈,此时再盯 CPU 使用率就是干扰项。

  • r 值(运行队列长度)长期 > CPU 核心数 → CPU 或 IO 瓶颈的强信号,但需结合 us/sy/wa 判断是算力不足还是卡在等待
  • iostat -x 1%util >80% 且 await 显著高于 svctm → 磁盘队列积压,不是硬件慢,是请求太多或单次太大
  • sar -n DEV 1 发现某网卡 rxdroptxerr 持续上升 → 不是带宽不够,很可能是驱动、MTU 或网卡缓冲区溢出

为什么 top 找不到真凶?线程级和内核态必须深挖

top 只显示进程级 CPU 占用,但 java 应用里一个 pid 下可能有上百线程,真正烧 CPU 的往往只是其中 1–2 个;同样,us(用户态)占比低不等于 CPU 安全——如果 sy(内核态)飙高,大概率是频繁系统调用、锁竞争或中断风暴。这时候光看 top 就会漏掉根因。

  • 查高负载线程:用 top -p → 按 H 切换线程视图 → 记下高 CPU 的 TIDprintf "%xn" 转十六进制 → 在 jstack 输出里搜 tid=0x...
  • 查内核态热点:用 perf top -p 看用户态函数;加 -k 参数(如 perf top -k /lib/modules/$(uname -r)/build/vmlinux)才能看到内核函数耗时
  • 查中断来源:cat /proc/interrupts | sort -k 3 -nr | head -10 快速定位高频中断设备,再结合 lspci 和驱动日志判断是否异常

数据不能只看“此刻”,要建立时间维度证据链

单次 vmstat 1 5 只能抓快照,但性能问题是动态演化的。比如内存泄漏不会让 free 瞬间归零,而是表现为 cached 缓慢上涨 + pgmajfault 持续增加;又比如 IO 瓶颈常伴随周期性 b(阻塞进程数)尖峰,单次采样很容易错过。没有时间序列,所有“看起来合理”的结论都可能是巧合。

  • sar -u 1 3600(每秒一次,持续 1 小时)捕获 CPU 波动规律,比反复手动 top 有效十倍
  • pidstat -d 1iotop 更适合长期记录,输出可直接导入 excel 做 IOPS 与响应时间相关性分析
  • 不要依赖 df 看磁盘空间——它不反映 inode 耗尽;用 df -ifind /path -xdev -type f | wc -l 双验证

剪枝比构造更难:如何避免陷入“工具依赖症”

手里有 perfstraceblktrace 就想全用一遍?这是新手最大误区。决策树的价值不在“我能测什么”,而在“我该停在哪”。比如 iostat 已确认磁盘无压力,还去跑 blktrace 分析 IO 路径,纯属浪费时间;又比如 vmstat 显示 r 值始终为 0,却坚持用 perf record -e cycles 做 CPU 火焰图,本质是用高成本手段验证一个已知事实。

  • 每用一个工具前,先问:它能证伪我当前的假设吗?如果答案是否定的,跳过
  • strace -p -c 统计系统调用频次,比盲目 strace -p 抓日志高效得多;发现 epoll_wait 占比超 90%,说明是事件循环阻塞,不用再往下追文件读写
  • Java 应用优先用 jstat -gc 看 GC 频率和停顿,而不是一上来就 jmap dump 全——后者可能拖垮生产服务

系统性思路的本质,是把“不知道从哪下手”的焦虑,转化成“下一步该验证哪个假设”的确定动作。最常被忽略的,其实是停止时机:当三个独立工具指向同一个子系统,且指标变化趋势一致,就该收手做优化,而不是继续深挖“为什么这个内核函数会多执行 0.3%”。

text=ZqhQzanResources