Python自动化实现服务器状态巡检与告警系统的设计思路【指导】

2次阅读

python服务器巡检核心是“可执行、可感知、可追溯”：用subprocess/paramiko采集CPU、内存、进程、端口等指标，分级告警并静默去重，jsON+csv+sqlite留存日志，测试48小时后上线。

Python自动化实现服务器状态巡检与告警系统的设计思路【指导】

用 Python 做服务器状态巡检与告警，核心是“可执行、可感知、可追溯”——脚本得跑得稳，指标得看得清，异常得及时触达。

一、明确要监控的关键指标

别一上来就写代码，先理清哪些状态真正影响业务：

CPU 使用率（持续 >85% 需关注）
内存剩余量（尤其关注可用内存
磁盘使用率（根分区 / 或数据目录，>90% 触发预警）
关键进程存活（如 nginx、mysql、redis 进程是否存在）
端口连通性（如 22、80、3306 是否能 telnet 通）
服务响应时间（http 接口返回码、耗时，可选）

二、用轻量方案采集数据

避免引入复杂依赖，优先用系统命令 + Python 解析：

用 subprocess.run() 调用 top -bn1、free -m、df -h、ps aux、lsof -i :端口号
正则提取关键数值，比如 re.search(r'(d+)%s+/dev/sda1′, df_output)
对远程服务器，可用 paramiko 执行命令（不依赖 agent），或统一走 ssh 密钥免密登录
本地脚本建议每 5 分钟 cron 执行一次；多台服务器可用并发线程/asyncio 加速轮询

三、设计分级告警逻辑

不是所有异常都要发消息，分清“提示”、“警告”、“严重”：

Python自动化实现服务器状态巡检与告警系统的设计思路【指导】

AI视频生成工具，ChatGPT +生成式视频AI =你可以制作伟大的视频!

Python自动化实现服务器状态巡检与告警系统的设计思路【指导】

146

立即学习“Python免费学习笔记（深入）”；

提示级：磁盘 85%，发企业微信/钉钉群（不 @ 人）
警告级：CPU 连续 3 次 >90%，邮件 + 群消息 + @值班人
严重级：mysql 进程消失 + 3306 端口不通，立即电话/短信（集成 Twilio 或国内短信网关）
加个“静默期”机制：同一问题 1 小时内只告警 1 次，避免刷屏

四、结果留存与简易可视化

巡检不能只管“报”，还要留痕、可查：

每次运行生成 json 日志，含时间、主机名、各项指标值、是否告警，存到本地 /var/log/server-check/
用 csv 写入历史记录，方便 excel 拉趋势图；或用 sqlite 存储，加个简单 flask 页面查最近 7 天状态
关键指标超阈值时，在日志中标记 red”>[alert]，grep 一眼定位问题时段

基本上就这些。不复杂但容易忽略的是：阈值要随业务调、告警渠道要真实可用、日志权限要设好。脚本写完，务必在测试机上跑满 48 小时再上线。

发表于：后端开发

近一天内

# alert # csv # excel # flask # http # js # json # mysql # nginx # python # red # redis # sqlite # ssh # var # 企业微信 # 并发 # 微信 # 接口 # 端口 # 线程 # 自动化 # 钉钉

复制链接

C#中如何监控数据库查询性能？使用什么工具？

使用 Pandas 实现 SAS Proc Standard 的标准化功能

Python循环机制深度解析：迭代元素、索引与enumerate()的灵活运用

处理分类变量编码与填充后的逆变换维度问题

sublime写JSON文件有什么技巧_sublime处理JSON的格式化与校验方法

VSCode的启动过程揭秘：是什么让它如此之快？

text=ZqhQzanResources