Linux 服务进程假死的检测方式

3次阅读

最直接判断linux服务假死的方式是发送轻量级探测信号或请求看是否响应：先用kill -0检查进程存在性，再通过curl健康端点、查日志、观察资源占用（cpu≈0%、fd/socket卡高位）组合验证。

Linux 服务进程假死的检测方式

假死不是崩溃，也不是退出，而是进程还在 ps 里挂着、systemctl status 显示 active (running)，但实际不响应请求、不写日志、不处理信号。最直接的判断方式是：发一个轻量级探测信号或请求，看它是否“有反应”。

推荐组合验证：

systemd 本身不主动探测业务逻辑是否存活，只管进程是否在运行。要防假死，得靠 HealthCheck* 类配置或外部探活。

实操建议：

优先启用服务内置健康检查（如 nginx 的 stub_status、redis 的 PING、golang net/http 的 /health），再配合 systemctl show --Property=ExecMainPID 获取 PID 后做探测
若服务无健康端点，可用 ss -tlnp | grep :port 看监听 socket 是否仍在 —— 假死后 socket 常被内核回收，但进程没退出
避免依赖 RestartSec=5 直接重启：假死进程可能拒绝 SIGTERM，导致 systemd 最终发 SIGKILL，丢失现场信息
设置 WatchdogSec=30s 并在服务代码中周期性调用 sd_notify("WATCHDOG=1")（需链接 libsystemd），这是 systemd 原生防假死机制

很多人写个 while 循环 + curl 就当监控用了，但容易误报或漏报。

常见翻车点：

curl 默认不校验 HTTP 状态码，curl http://.../health 返回 503 也认为成功 —— 必须加 -f 参数让非 2xx/3xx 触发失败
没设超时：curl 卡住会拖垮整个脚本，必须加 -m 3（秒级）和 --connect-timeout 2
用 ps aux | grep myapp 判断进程存在？危险！grep 自身也会匹配上，应改用 pgrep -f "^/path/to/myapp" 或 pidof myapp
脚本跑在 crontab 里时，PATH 和环境变量和交互式 shell 不同，curl 或 systemctl 可能找不到 —— 显式写全路径，比如 /usr/bin/curl

当你已经怀疑某个进程假死，又不想立刻杀掉它，strace 是最贴近真相的工具。

执行 strace -p <pid> -e trace=recvfrom,sendto,accept,read,write,poll,select,epoll_wait -s 64 -T</pid> 后重点关注：

假死往往不是单一原因，而是资源泄漏 + 错误处理缺失 + 信号屏蔽叠加的结果。最麻烦的是那种“看起来一切正常”的假死：日志照打、CPU 有波动、连接数缓慢上涨——这时候得看线程栈和 fd 泄漏，别只盯着主进程状态。

发表于：后端开发

近两天内

复制链接

XML文件作为数据源它是如何存储传输数据的

如何清空并逐字显示文本内容：解决 textContent 累加而非替换的问题