Linux生产事故定位思路_故障定位方法论

2次阅读

linux生产事故定位需分层收敛、证据驱动，先锁定问题位置再分析原因，通过明确现象、时间线索、软硬件栈自底向上排查、关键日志工具链及根因验证实现高效定位。

Linux生产事故定位不是靠猜，而是靠分层收敛、证据驱动。核心是快速锁定“问题在哪儿”，再聚焦“为什么发生”，而不是一上来就翻代码或重启服务。

先用一句话说清：什么服务/功能异常？具体表现是什么？从什么时候开始？影响范围多大？

按软硬件栈自底向上排查，每层只验证一个假设：

硬件层：检查dmesg是否有内存ECC错误、PCIe链路down、温度告警；用smartctl看SSD健康度
内核层：重点看/var/log/kern.log和journalctl -k -b -1（上一次启动的日志！）；搜Oops、hung_task、watchdog
系统服务层：用systemctl list-units --state=failed查失败单元；journalctl -u xxx -n 100看服务自身日志
应用层：确认进程是否存活、端口是否监听（ss -tlnp）、依赖服务连通性（curl -v或nc -zv）

别全盘扫描，盯住三类高价值信息源：

reset类事故必查Reset Reason：cat /proc/reset_reason或cat /sys/kernel/debug/reset_reason，区分是看门狗触发、软件主动重启还是内核panic
内存/CPU瓶颈看实时+历史趋势：用vmstat 1 5看r/b/swpd/si/so/bi/bo列；pidstat -u -r -d 1关联CPU、内存、IO占用；perf record -g -a sleep 30抓热点函数
网络问题抓包要带上下文：先tcpdump -i any port 8080 -w app.pcap，再结合应用日志里报错的请求ID过滤分析，避免大海捞针

找到疑似原因后，必须做最小化复现或反向验证：

如果是OOM Killer杀进程，查dmesg | grep -i "killed process"，再比对free -h和cat /proc/meminfo当时水位
如果是驱动异常，尝试卸载模块后观察是否复现（rmmod xxx），或换内核版本交叉验证
避免“改了就好”：上线前用stress-ng --cpu 8 --io 4 --vm 2 --vm-bytes 1G -t 60s压测验证稳定性

发表于：web前端

近一天内

复制链接

vscode连接数据库性能怎么样

CSS如何处理定位元素在旧版IE中的空隙bug_利用margin-top负值进行css微调