Linux批量服务器如何巡检_自动巡检脚本设计【教学】

1次阅读

Linux批量服务器巡检核心是“统一采集+分类分析+异常告警”,需先标准化检查项(负载、磁盘、内存、进程、日志),再通过免密SSH并发执行脚本,结构化为可配置函数,最后轻量聚合并邮件告警。

Linux批量服务器如何巡检_自动巡检脚本设计【教学】

Linux批量服务器巡检,核心是“统一采集 + 分类分析 + 异常告警”,不是逐台登录敲命令。关键在于把人工检查项标准化、脚本化,并支持并发执行和结果聚合。

一、明确巡检项:先列清单,再自动化

别一上来就写脚本。先梳理运维中最常关注的5类基础状态:

  • 系统负载:uptime、load average 是否超阈值(如 15 分钟负载 > CPU 核数 × 1.5)
  • 磁盘空间:df -h 中使用率 ≥ 90% 的分区需标记
  • 内存与Swap:free -m 中可用内存 80%
  • 关键进程存活:如 nginxmysqlredis 是否在 ps 输出中存在
  • 最近异常日志:/var/log/messages 或 journalctl -n 100 中含 “ERROR”、“OOM”、“failed” 的行

二、用 SSH+脚本实现批量执行(免密前提)

假设你已配置好对所有目标服务器的免密 SSH 登录(~/.ssh/config 或 IP 列表),巡检脚本本身只需一个 shell 文件,通过 for 循环或并行工具触发远程命令:

示例片段(check.sh):

#!/bin/bash
SERVERS=(“192.168.1.10” “192.168.1.11” “192.168.1.12”)
for ip in “${SERVERS[@]}”; do
  echo “=== $ip ===”
  ssh “$ip” ‘uptime; df -h | awk ”’$5+0 > 90 {print $0}”’; free -m | awk ”’NR==2 {if ($7+0 /dev/null || echo “NGINX DOWN”; journalctl -n 50 2>/dev/null | grep -i “error|failed|oom” | head -3′
  echo “”
done

三、升级为可维护的结构化脚本

上面的单行命令难读难改。推荐拆成模块:

  • 用函数封装每个检查项,如 check_disk()、check_service nginx
  • 将阈值、服务名、日志路径等参数外置为配置变量,方便不同环境复用
  • 每台服务器输出 JSON 或 key=value 格式(如 disk_full=/dev/sda1,94%),便于后续用 awk / jq 统计
  • 加超时控制:ssh -o ConnectTimeout=5 -o BatchMode=yes … 避免卡死

四、轻量聚合与告警(不依赖Zabbix也能做)

巡检结果汇总不需要上平台。一个简单但有效的做法:

  • 每次执行后生成 report_$(date +%F).log,记录所有异常项
  • 用 grep -l “DOWN|LOW MEM|9[0-9]%” report_*.log 判断是否有故障
  • 有异常时,自动发邮件:echo “发现3台服务器磁盘超限” | mail -s “[ALERT] Server Check” admin@company.com
  • 配合 cron 每天 6:00 执行:0 6 * * * /opt/scripts/server-check.sh >> /var/log/server-check.log 2>&1

不复杂但容易忽略:真正的巡检价值不在“跑完”,而在“有人看结果”。建议首次运行后手动核对 2–3 台真实服务器输出是否匹配预期,再推广到全量集群。

Linux批量服务器如何巡检_自动巡检脚本设计【教学】

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载

来源:php中文网

Linux批量服务器如何巡检_自动巡检脚本设计【教学】

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

text=ZqhQzanResources