Linux 编写自动化运维脚本实践

7次阅读

自动化运维脚本核心是让重复操作可靠、可复用、可追溯,关键在稳、准、快;需明确目标、抽离变量、设计错误处理、优选shell、加日志校验回滚,并经本地→测试→灰度验证。

Linux 编写自动化运维脚本实践

写自动化运维脚本,核心是让重复操作变可靠、可复用、可追溯。不是追求功能多,而是稳、准、快——尤其在批量管理服务器、部署服务、巡检日志这类高频场景里。

明确目标再动手:先想清楚“自动什么”

别一上来就写 for 循环。先问自己三个问题:

  • 当前手动操作的每一步是什么?有没有固定顺序和依赖关系?
  • 哪些参数会变?比如主机 IP、版本号、路径前缀——这些要抽成变量或命令行参数
  • 失败了怎么处理?是跳过、重试,还是立刻退出并报错?加 set -e 或显式判断 $? 很关键

例如批量重启某服务,不能只写 ssh $host systemctl restart nginx,得加超时、检查端口是否恢复、记录执行结果到日志文件。

选对语言和工具:Shell 够用就别硬上 Python

日常运维中,80% 的任务用 bash 就很合适——启动服务、查进程、同步文件、解析日志行。它轻量、系统自带、无需额外环境。

  • getopts 解析参数,比手工切 $1 $2 更健壮
  • here document 写多行配置或临时脚本,避免引号嵌套混乱
  • 敏感信息(如密码)别硬编码,改用 ssh-agentenv vars 或专用密钥管理工具

当逻辑变复杂(比如要并发控制、调 API、做数据聚合),再考虑 Python + Paramiko / fabric / ansible。但记住:越简单越容易维护。

让脚本能被信任:加日志、加校验、加回滚

一个没人敢上线的脚本,写得再漂亮也没用。可信来自三件事:

  • 执行前打印将要做的操作(dry-run 模式),加 -n 参数支持预览
  • 关键步骤前后留痕迹:用 date >> deploy.log 记时间,用 md5sum /etc/nginx/nginx.conf >> backup.md5 留校验
  • 有退路:修改配置前先 cp nginx.conf nginx.conf.bak.$(date +%s);升级前 tar 打包旧版本目录

别省这几行代码。线上出问题时,它们就是救命稻草。

落地前必须验证:本地 → 测试机 → 小范围灰度

脚本不是写完就能跑。真实环境永远有意外:

  • 不同发行版命令行为差异(比如 ps auxcentos 和 Alpine 上字段顺序可能不同)
  • 权限问题:脚本以谁的身份运行?sudo 权限是否已配好?SElinux/AppArmor 是否拦截?
  • 网络波动导致 ssh 超时、curl 失败——加重试逻辑,但限制次数,避免雪崩

建议用 vagrantpodman 启几个最小化容器模拟目标环境,把脚本放进去跑通再推生产。

不复杂但容易忽略:每次更新脚本后,顺手加个版本号和修改说明在注释头里。半年后你翻出来,会感谢现在的自己。

text=ZqhQzanResources