Linux 日志分析与故障排查方法

4次阅读

快速定位 journalctl 报错日志需缩范围：用 –since 锁定时间、-u 限定服务、-o json + jq 精准过滤字段；避免 grep 跨行遗漏，加 -a/-b 查上下文；注意时区、时间同步及日志级别。

Linux 日志分析与故障排查方法

默认 journalctl 输出全量日志，翻到出问题的时间点靠猜——实际排查时根本来不及。关键不是“看全”，而是“缩范围”。

用 --since "2024-05-20 14:30:00" 或 --since "2h ago" 锁定时间窗口，比手动滚动快十倍
加 -u <code>nginx.service 只查特定服务，避免被 systemd、kernel 日志淹没
错误通常带关键词，直接 journalctl -u sshd | grep -i "failed|denied|timeout"，注意大小写和空格匹配
别用 tail -f /var/log/syslog 替代——如果系统启用了 journald，/var/log/syslog 可能不实时或缺字段（比如没有 _PID）

日志不是纯文本流，每条记录有结构（timestamp、unit、priority），grep 直接扫容易跨行或断在中间。

用 journalctl -o json 输出 JSON 格式，再用 jq '.MESSAGE | select(contains("connection refused"))' 精准过滤字段，不依赖位置
如果必须用 grep，加上 -A 2 -B 1 带上下文，很多错误信息分散在多行（比如 stack trace 的第一行是 Error，后三行才是具体函数）
journalctl --no-pager 必须加，否则 grep 会卡在分页器里没输出
注意日志级别：默认 journalctl 不显示 debug 级别，要查更细的线索得加 -p debug，但可能爆炸式增长

这类日志本身不报错，但压垮磁盘 I/O 或掩盖真正故障源。重点不是“看内容”，而是“看模式”。

用 journalctl -u app.service --since "10 minutes ago" | awk '{print $1,$2,$3,$NF}' | sort | uniq -c | sort -nr | head -10 统计末尾字段（通常是错误码或路径）出现频次
检查是否由定时任务触发：systemctl list-timers --all 看有没有刚好在报错时间段运行的 timer
高频 Connection refused 多半是客户端连不上服务端，先确认目标服务是否真在运行：ss -tlnp | grep :8080，而不是一头扎进日志里找原因
日志刷屏会拖慢 journald 写入，导致新日志延迟甚至丢失，此时应临时限流：systemctl set-Property systemd-journald.service MemoryLimit=512M

服务器时间偏差 5 分钟，你查的“故障时段”可能全是正常流量；容器内时间与宿主机不同步，journalctl 和 docker logs 对不上——这是最隐蔽也最致命的坑。

查当前时间源：timedatectl status，重点关注 System clock synchronized: yes 和 NTP service: active
容器场景下，docker run 默认共享宿主机时钟，但若加了 --privileged 或挂载了 /etc/localtime，可能破坏同步
跨机器排查时，用 journalctl --since "2024-05-20T14:30:00+0800" 显式带时区，别信本地终端显示的“现在时间”
journalctl 时间戳来自内核事件队列，不是写入时刻，高负载下可能滞后数秒——查瞬时故障时，这个延迟本身就得计入误差范围

发表于：开发工具

四天前

复制链接

动态生成 Python 类：从 JSON 构建可序列化的类定义

sublime怎么设置透明窗口_Sublime透明插件安装与配置【干货】