Linux批量服务器巡检核心是“统一采集+分类分析+异常告警”,需先标准化检查项(负载、磁盘、内存、进程、日志),再通过免密SSH并发执行脚本,结构化为可配置函数,最后轻量聚合并邮件告警。

Linux批量服务器巡检,核心是“统一采集 + 分类分析 + 异常告警”,不是逐台登录敲命令。关键在于把人工检查项标准化、脚本化,并支持并发执行和结果聚合。
一、明确巡检项:先列清单,再自动化
别一上来就写脚本。先梳理运维中最常关注的5类基础状态:
- 系统负载:uptime、load average 是否超阈值(如 15 分钟负载 > CPU 核数 × 1.5)
- 磁盘空间:df -h 中使用率 ≥ 90% 的分区需标记
- 内存与Swap:free -m 中可用内存 80%
- 关键进程存活:如 nginx、mysql、redis 是否在 ps 输出中存在
- 最近异常日志:/var/log/messages 或 journalctl -n 100 中含 “ERROR”、“OOM”、“failed” 的行
二、用 SSH+脚本实现批量执行(免密前提)
假设你已配置好对所有目标服务器的免密 SSH 登录(~/.ssh/config 或 IP 列表),巡检脚本本身只需一个 shell 文件,通过 for 循环或并行工具触发远程命令:
示例片段(check.sh):
#!/bin/bash
SERVERS=(“192.168.1.10” “192.168.1.11” “192.168.1.12”)
for ip in “${SERVERS[@]}”; do
echo “=== $ip ===”
ssh “$ip” ‘uptime; df -h | awk ”’$5+0 > 90 {print $0}”’; free -m | awk ”’NR==2 {if ($7+0 /dev/null || echo “NGINX DOWN”; journalctl -n 50 2>/dev/null | grep -i “error|failed|oom” | head -3′
echo “”
done
三、升级为可维护的结构化脚本
上面的单行命令难读难改。推荐拆成模块:
- 用函数封装每个检查项,如 check_disk()、check_service nginx
- 将阈值、服务名、日志路径等参数外置为配置变量,方便不同环境复用
- 每台服务器输出 JSON 或 key=value 格式(如 disk_full=/dev/sda1,94%),便于后续用 awk / jq 统计
- 加超时控制:ssh -o ConnectTimeout=5 -o BatchMode=yes … 避免卡死
四、轻量聚合与告警(不依赖Zabbix也能做)
巡检结果汇总不需要上平台。一个简单但有效的做法:
- 每次执行后生成 report_$(date +%F).log,记录所有异常项
- 用 grep -l “DOWN|LOW MEM|9[0-9]%” report_*.log 判断是否有故障
- 有异常时,自动发邮件:echo “发现3台服务器磁盘超限” | mail -s “[ALERT] Server Check” admin@company.com
- 配合 cron 每天 6:00 执行:0 6 * * * /opt/scripts/server-check.sh >> /var/log/server-check.log 2>&1
不复杂但容易忽略:真正的巡检价值不在“跑完”,而在“有人看结果”。建议首次运行后手动核对 2–3 台真实服务器输出是否匹配预期,再推广到全量集群。
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
- 2025-12-15 11:33:53
- 2025-12-15 11:34:27
- 2025-12-15 11:39:22
- 2025-12-15 12:06:07
- 2025-12-15 12:17:03
- 2025-12-15 12:23:40
- 2025-12-15 12:29:02
- 2025-12-15 13:12:08
- 2025-12-15 13:36:09
- 2025-12-15 13:42:53