Linux批量服务器如何巡检_自动巡检脚本设计【教学】

27次阅读

Linux批量服务器巡检核心是“统一采集+分类分析+异常告警”，需先标准化检查项（负载、磁盘、内存、进程、日志），再通过免密SSH并发执行脚本，结构化为可配置函数，最后轻量聚合并邮件告警。

Linux批量服务器巡检，核心是“统一采集 + 分类分析 + 异常告警”，不是逐台登录敲命令。关键在于把人工检查项标准化、脚本化，并支持并发执行和结果聚合。

一、明确巡检项：先列清单，再自动化

别一上来就写脚本。先梳理运维中最常关注的5类基础状态：

系统负载：uptime、load average 是否超阈值（如 15 分钟负载 > CPU 核数 × 1.5）
磁盘空间：df -h 中使用率 ≥ 90% 的分区需标记
内存与Swap：free -m 中可用内存 80%
关键进程存活：如 nginx、mysql、redis 是否在 ps 输出中存在
最近异常日志：/var/log/messages 或 journalctl -n 100 中含 “ERROR”、“OOM”、“failed” 的行

二、用 SSH+脚本实现批量执行（免密前提）

假设你已配置好对所有目标服务器的免密 SSH 登录（~/.ssh/config 或 IP 列表），巡检脚本本身只需一个 shell 文件，通过 for 循环或并行工具触发远程命令：

示例片段（check.sh）：

腾讯AI 开放平台

腾讯ai开放平台

381

查看详情

#!/bin/bash
SERVERS=(“192.168.1.10” “192.168.1.11” “192.168.1.12”)
for ip in “${SERVERS[@]}”; do
  echo “=== $ip ===”
  ssh “$ip” ‘uptime; df -h | awk ”’$5+0 > 90 {print $0}”’; free -m | awk ”’NR==2 {if ($7+0 /dev/null || echo “NGINX DOWN”; journalctl -n 50 2>/dev/null | grep -i “error|failed|oom” | head -3′
  echo “”
done

三、升级为可维护的结构化脚本

上面的单行命令难读难改。推荐拆成模块：

用函数封装每个检查项，如 check_disk()、check_service nginx
将阈值、服务名、日志路径等参数外置为配置变量，方便不同环境复用
每台服务器输出 JSON 或 key=value 格式（如 disk_full=/dev/sda1,94%），便于后续用 awk / jq 统计
加超时控制：ssh -o ConnectTimeout=5 -o BatchMode=yes … 避免卡死

四、轻量聚合与告警（不依赖Zabbix也能做）

巡检结果汇总不需要上平台。一个简单但有效的做法：

每次执行后生成 report_$(date +%F).log，记录所有异常项
用 grep -l “DOWN|LOW MEM|9[0-9]%” report_*.log 判断是否有故障
有异常时，自动发邮件：echo “发现3台服务器磁盘超限” | mail -s “[ALERT] Server Check” admin@company.com
配合 cron 每天 6:00 执行：0 6 * * * /opt/scripts/server-check.sh >> /var/log/server-check.log 2>&1

不复杂但容易忽略：真正的巡检价值不在“跑完”，而在“有人看结果”。建议首次运行后手动核对 2–3 台真实服务器输出是否匹配预期，再推广到全量集群。