Linux 运维操作如何做到可重复

2次阅读

ansible运维需统一用playbook管理,优先幂等模块并提取变量;systemd服务须设restart=always等三参数;日志须配logrotate或rsyslog;cron任务需声明shell/path并用绝对路径。

Linux 运维操作如何做到可重复

ansible 而不是手敲命令

人工执行 ssh 连机器、apt install、改 /etc/nginx/conf.d/,看似快,但下次换环境或加节点就卡住。人记不住自己上周在哪台机上多装了一个 python3-pip,也记不清 systemctl restart 是在 reload 之前还是之后做的。

实操建议:

  • 所有运维动作统一走 ansible-playbook,哪怕只管一台机——inventory 文件里写 localhost ansible_connection=local 就行
  • 避免在 playbook 里写 shell 模块调 curlecho >>;优先用 aptcopytemplate 这类幂等模块
  • 变量提取到 group_vars/host_vars/,别硬编码在 task 里,比如把端口号从 port: 8080 改成 port: "{{ http_port }}"

systemd 服务配置必须带 Restart=alwaysStartLimitIntervalSec

很多人写完 systemctl enable myapp.service 就以为稳了,结果进程崩一次就再没起来——因为默认 Restart=no,且 systemd 对频繁崩溃的保护机制(StartLimitIntervalSec)没显式设,导致第 5 次失败后直接放弃拉起。

实操建议:

  • 服务文件里至少明确这三行:Restart=alwaysRestartSec=5StartLimitIntervalSec=60
  • 不要依赖 ExecStartPre 做复杂判断(比如检查端口占用),它失败会导致启动中止;真要校验,放进应用自身启动逻辑里
  • systemctl show myapp.service -p Restart 确认值已生效,别只看文件写了没

日志路径和轮转规则必须写死在 rsysloglogrotate 配置里

journalctl --since "2 weeks ago" 查问题?journald 默认只存内存+有限磁盘,重启后旧日志大概率丢。更糟的是,有人在脚本里用 echo >> /var/log/myapp.log,结果磁盘被撑爆——因为没人配 logrotate

实操建议:

  • 应用日志统一输出到文件时,必须配 /etc/logrotate.d/myapp,包含 dailyrotate 30compressmissingok
  • 如果用 rsyslog 转发,确保 $ActionFileDefaultTemplate$ActionFileEnableSync 设对,否则高并发下会丢日志
  • 禁止在 cron 里写 find /var/log -name "*.log" -mtime +7 -delete ——这不叫轮转,叫定时删库

crontab -e 里的路径必须用绝对路径,且显式声明 SHELLPATH

*/5 * * * * backup.sh 在你本地 bash 下能跑,放到 crontab 就报 command not found——因为 cron 默认 PATH=/usr/bin:/bin,压根找不到 /opt/python3.11/bin/pip,连 date 都可能调错版本。

实操建议:

  • 每条 cron 任务开头加上:SHELL=/bin/bashPATH=/usr/local/bin:/usr/bin:/bin
  • 脚本里所有命令用绝对路径:/usr/bin/python3 /opt/scripts/healthcheck.py,别信 which python3 的结果
  • 重定向输出必须写全:> /var/log/backup.log 2>&1,否则 stderr 会静默丢失,你还以为任务根本没运行

可重复不是靠“我每次都这么操作”,而是让机器自己验证前提、拒绝异常状态、出错时留下明确线索。最常漏掉的其实是环境变量继承和权限上下文——sudo crontab -e 和普通用户 crontab -e$HOME 完全不同,连 ~/.aws/credentials 都可能读不到。

text=ZqhQzanResources