Linux 系统启动日志分析实战

1次阅读

journalctl查不到启动日志是因为systemd-journald默认仅记录自身启动后的日志,早期内核及initrd日志需用dmesg -t或/var/log/dmesg查看;启用forwardtokmsg=yes并设storage=persistent可持久化早期日志。

Linux 系统启动日志分析实战

journalctl 查不到启动日志?先确认 systemd 是否接管了 boot

很多刚切到 systemd 的用户发现 journalctl -b 没有早期内核或 initrd 日志,不是命令错了,是 journal 本身没记录那段——systemd-journald 默认只从它自己启动后开始收日志。真正的 boot 阶段(比如 kernel cmdline、initrd 解压、early userspace)得靠 dmesg -T/var/log/dmesg(如果存在且未被轮转)。

实操建议:

  • journalctl -b -1 看上一次启动(避免当前运行态干扰)
  • journalctl -k -b 只看 kernel ring buffer 内容,等效于 dmesg,但带时间戳和 journal 格式
  • 若需永久保存 early boot 日志,检查 /etc/systemd/journald.confStorage=persistentForwardToKMsg=yes 是否启用
  • 某些发行版(如 RHEL/centos 8+)默认禁用 ForwardToKMsg,导致 journalctl -k 返回空——这时必须手动改配置并 systemctl restart systemd-journald

“Failed to start” 报错但服务实际跑起来了?看依赖链和单元状态

systemd 启动失败提示往往误导人:它只反映 unit 文件中定义的 WantedBy / RequiredBy 关系是否满足,不等于进程没起来。常见于网络服务(如 sshd)、容器守护进程(如 dockerd),它们可能在依赖项(如 network.target)就绪前就自行 fork 并监听端口。

实操建议:

  • 别只信 systemctl status <code>xxx 的第一行状态,重点看 “Loaded” 行的路径和 “Active” 行的精确时间点
  • systemctl list-dependencies --reverse <code>xxx 找谁拉起了它;用 systemctl show <code>xxx -p After -p Before -p Wants 看依赖顺序
  • 如果服务进程确实存在(ps aux | grep <code>xxx),但 systemctl 显示 failed,大概率是 unit 文件里写了错误的 Type=(比如该用 Type=forking 却写了 Type=simple
  • Type=notify 服务若没正确调用 sd_notify("READY=1"),systemd 会一直等超时然后标为 failed——哪怕进程早就在跑了

日志刷屏太快看不清?用 _COMM 和 _PID 过滤 + follow 模式

启动阶段大量服务并发写日志,journalctl -b 输出滚动太快,人工定位关键错误几乎不可能。直接翻页或管道 grep 容易漏上下文,因为同一事件的日志可能跨多行、分散在不同 unit 里。

实操建议:

  • journalctl -b _COMM=kernel 锁定内核消息;journalctl -b _COMM=systemd 看 systemd 自身调度行为
  • 查某个服务崩溃瞬间:journalctl -b -u <code>nginx –since “2024-05-20 10:22:00”(用真实时间点代替)
  • 实时跟踪新日志:journalctl -b -f -o short-iso,加 -o short-iso 让时间可读,避免默认格式里毫秒截断
  • 别用 tail -f /var/log/syslog 替代——syslog 是转发目标,不是源头;journal 才是唯一权威来源,尤其对 early boot 和 cgroup 相关事件

日志里全是十六进制或乱码?检查 locale 和 UTF-8 支持

某些嵌入式系统、最小化安装或 chroot 环境下,journalctl 输出含不可见字符、中文变问号、甚至整行显示为 @x00@x01...,根本不是编码问题,而是 systemd-journald 在采集日志时没拿到正确的 locale 信息,导致二进制数据被误当文本处理。

实操建议:

  • 先运行 locale,确认 LANGLC_ALL 是有效 UTF-8 值(如 en_US.UTF-8),不是 C 或空
  • 临时修复:LANG=en_US.UTF-8 journalctl -b;永久修复:在 /etc/locale.conf 里写入 LANG=en_US.UTF-8localectl set-locale
  • 若服务自身输出非 UTF-8(如旧版 Python 脚本用 GBK 打印),systemd 不会自动转码——必须改服务代码或加 wrapper 转换,journal 本身不负责字符集转换
  • 某些硬件固件日志(如 UEFI 变量 dump)天生含二进制,journal 会原样存,此时应跳过这类条目:journalctl -b | grep -v "UEFI:"

真正麻烦的是那些没触发任何报错、但系统启动慢了 30 秒的服务——它们的日志可能安静地躺在 _TRANSPORT=driver 类型里,而默认过滤器会忽略。这时候得加 --all 参数,再配合 _PID 逐个筛。

text=ZqhQzanResources