Linux 自动化故障恢复策略

2次阅读

restart=on-failure + restartsec=5 + startlimitintervalsec=60 + startlimitburst=3 是 systemd 服务安全重启的黄金组合,避免无限循环重启与资源耗尽。

Linux 自动化故障恢复策略

systemd 服务崩溃后自动重启怎么配才不翻车

直接配 Restart=always 很容易导致服务反复启动失败、打满 CPU,甚至把数据库进程反复 kill 掉引发数据不一致。关键不是“要不要重启”,而是“什么条件下重启”和“重启前/后做什么”。

  • Restart=on-failure 是更安全的默认选择:只在进程非零退出、被 SIGSEGVOOMKilled 时触发,跳过正常 exit 0 场景
  • 必须加 RestartSec=5:避免秒级循环重启;对冷启动慢的服务(如 Java 应用),建议设为 1015
  • 强制加上频率限制:StartLimitIntervalSec=60 + StartLimitBurst=3,超限后 systemd 会停手并标记 start-limit-hit,这时就得人工查日志了
  • 改完别忘了 systemctl daemon-reloadsystemctl restart xxx.service,否则配置不生效

e2fsck 修复 ext4 文件系统时最常误操作的三件事

遇到 EXT4-fs (sda1): unable to read superblock 别急着跑 e2fsck /dev/sda1 —— 这个命令默认只读主 superblock,一错就可能让元数据雪上加霜。

  • 先查备份 superblock 位置:dumpe2fs -h /dev/sda1 2>/dev/NULL | grep -i "superblock backup",常见位置有 81933276898304
  • -n 只读模式验证:e2fsck -n -b 8193 /dev/sda1,能成功说明备份块可用,再执行带 -b 的修复
  • 看到 UNEXPECTED INCONSISTENCY; RUN fsck MANUALLY,优先用 e2fsck -p /dev/sda1 自动预修复;-y 虽省事但会把所有孤儿 inode 直接丢进 /lost+found,文件名全丢,后期根本没法认

监控告警到自动恢复之间,为什么总差那么一口气

很多团队装了 prometheus、配了 Alertmanager,但告警来了还得手动登录服务器敲命令——问题不在监控,而在“决策”环节缺失。自动恢复卡在“该不该动”“怎么动”“动错了怎么办”这三关。

  • 告警不能只发 Slack:Alertmanager 的 webhook 必须对接一个轻量脚本,比如收到 NodeFilesystemSpaceFillingUp 告警后,自动清理 /var/log/journal 或清空 /tmp 下 7 天前的文件
  • 脚本必须幂等:rm -f /tmp/*.log 安全,rm -rf /tmp/* 危险;每次运行结果应可预期,重复执行无副作用
  • 所有动作必须记日志:用 logger -t auto-heal "cleaned /tmp, freed 2.1G",而不是只写到 stdout;否则故障复盘时连“有没有执行过”都搞不清
  • 拒绝黑盒操作:像 systemctl restart mysql 这类高风险动作,脚本里得先检查 mysqladmin ping 是否响应、mysqld 进程是否存在,再决定是否重启

MinIO 集群节点宕机后,mc admin heal 不是万能解药

mc admin heal 确实能修复部分对象损坏,但它不处理节点下线后的数据重平衡,也不保证服务不中断。真实场景中,它只是恢复链条里的一环。

  • 先确认节点状态:mc admin info myminio 看哪些节点 offline,别只盯着 heal 输出的“healed objects”数字
  • 替换节点前,用 mc admin service restart 尝试软恢复;若无效,再物理下线旧节点、部署新节点,并确保 MINIO_ROOT_USER 和证书完全一致
  • mc admin heal -r myminio/mybucket递归修复,但耗 I/O;生产环境建议在低峰期跑,且提前用 mc stat 查看 bucket 对象数,预估耗时
  • 真正防止单点失效的是 Erasure Coding 配置:部署时就该用 4+2 或更高,而不是等故障了再指望 heal 把坏盘数据拼回来

自动恢复不是写个脚本扔 cron 就完事。最难的部分永远在边界判断:什么时候该修,什么时候该报,什么时候该停。日志没留全、权限没设对、幂等没保障——这些细节不抠清楚,自动化反而会成为故障放大器。

text=ZqhQzanResources