Linux如何搭建监控系统_利用Prometheus监控系统资源全套流程【指导】

2次阅读

prometheus监控linux系统需部署Server、node Exporter和grafana三组件:Node Exporter采集主机指标并暴露于9100端口;Prometheus通过prometheus.yml配置抓取目标并存储数据;Grafana接入Prometheus作为数据源,导入ID为1860的仪表盘实现可视化与告警。

Linux如何搭建监控系统_利用Prometheus监控系统资源全套流程【指导】

用 Prometheus 搭建 Linux 系统资源监控,核心是部署 Prometheus Server + Node Exporter + 可视化(推荐 Grafana),三者协同工作:Node Exporter 采集主机指标,Prometheus 定期拉取并存储,Grafana 负责展示与告警配置。

安装并运行 Node Exporter(采集端)

Node Exporter 是轻量级服务,专用于暴露 Linux 主机的 CPU、内存、磁盘、网络等指标。

  • 下载最新二进制包(如 node_exporter-1.6.1.linuxamd64.tar.gz),解压后进入目录
  • 直接运行:./node_exporter &(生产环境建议用 systemd 托管)
  • 默认监听 :9100/metrics,访问 http://本机IP:9100/metrics 应返回大量以 # HELP 开头的指标文本
  • 常见问题防火墙需放行 9100 端口;若用非 root 用户运行,部分磁盘/进程指标可能为空(可加 –no-collector.processes 跳过)

配置并启动 Prometheus Server(服务端)

Prometheus 主动从 Node Exporter 拉取数据,靠配置文件定义抓取目标和规则。

  • 下载 Prometheus(如 prometheus-2.47.2.linux-amd64.tar.gz),解压后编辑 prometheus.yml
  • scrape_configs 下添加 job:
    – job_name: ‘linux’
      static_configs:
      – targets: [‘192.168.1.100:9100’]

    (把 IP 换成你 Node Exporter 所在机器的真实地址)
  • 保存后执行:./prometheus –config.file=prometheus.yml –web.listen-address=”:9090″
  • 访问 http://本机IP:9090/targets 查看状态是否为 UP;在 Graph 页面输入 node_cpu_seconds_total 可查到 CPU 数据

接入 Grafana 实现可视化(展示层)

Grafana 不处理采集或存储,只对接 Prometheus 当作数据源,提供图形面板和告警能力。

Linux如何搭建监控系统_利用Prometheus监控系统资源全套流程【指导】

美图AI开放平台

美图推出的ai人脸图像处理平台

Linux如何搭建监控系统_利用Prometheus监控系统资源全套流程【指导】 111

查看详情 Linux如何搭建监控系统_利用Prometheus监控系统资源全套流程【指导】

  • 安装 Grafana(apt/yum 或直接下载 deb/rpm 包),启动后访问 http://本机IP:3000(默认账号 admin/admin)
  • 添加数据源:Configuration → Data Sources → Add data source → 选 Prometheus → 填 URL http://prometheus所在IP:9090 → Save & Test
  • 导入现成仪表盘:Dashboard → Import → 输入 ID 1860(官方 Node Exporter Full)→ 选择刚配的数据源 → Load
  • 仪表盘会自动显示 CPU 使用率、内存剩余、根分区使用率、网卡流量等关键图表,支持下钻、时间范围切换、导出 PNG

可选:配置简单告警(alertmanager)

当指标异常时发邮件或微信,需额外部署 Alertmanager 并关联 Prometheus。

  • 下载 Alertmanager,编辑 alert.rules.yml,例如定义内存使用超 90% 触发:
    groups:
    – name: example
      rules:
      – alert: HighMemoryUsage
        expr: 100 * (1 – (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) > 90
        for: 2m
        labels:
          severity: warning
  • 修改 prometheus.yml,添加 rule_files:alerting: 配置,指向 rules 文件,并配置 alertmanager 的地址
  • 启动 Alertmanager,Prometheus 启动时会自动推送告警规则;触发条件满足后,可在 Alertmanager Web ui:9093)看到待处理告警

基本上就这些。整套流程不复杂但容易忽略权限、端口、IP 地址匹配等细节。跑通后,所有系统资源都变成可查、可看、可告警的数字,运维效率明显提升。

text=ZqhQzanResources