Go语言如何写一个API监控工具_Golang接口监控项目实战

2次阅读

go 写轻量级 http 探测器需:1. 用带超时的 http.Client 发请求;2. 类型断言精准归因错误(dns/连接/TLS/状态码);3. jsON 行式日志按天切分;4. 每 URL 独立 goroutine + sync.map 管理;5. 分层记录网络、TLS、HTTP、业务错误。

Go语言如何写一个API监控工具_Golang接口监控项目实战

怎么用 Go 写一个轻量级 HTTP 接口存活探测器

直接用 http.Client 发 GET 请求 + 超时控制就能搞定基础监控,不需要引入框架。关键不是“能发请求”,而是“失败时能准确归因”——比如是 DNS 解析失败、连接超时、TLS 握手失败,还是返回了 5xx?http.Client 默认会把底层错误吞掉,必须显式检查 err 类型。

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • &http.Client{Timeout: 10 * time.Second} 控制总耗时,避免单次探测卡死
  • err 做类型断言:if urlErr, ok := err.(*url.Error); ok && urlErr.Err != nil,再进一步判断 urlErr.Err 是否为 *net.OpErrorx509.CertificateInvalidError
  • 不要只看 resp.StatusCode >= 200 && resp.StatusCode ,有些健康接口返回 204 或自定义 299 状态码,应允许配置期望状态码列表
  • 记录原始 resp.Status(含状态文本)而非仅数字,方便排查 “200 OK” 和 “200 Service Unavailable” 的区别

如何结构化存储每次探测结果并支持快速查故障时段

别一上来就上 mysqlelasticsearch。日志文件 + 简单索引更轻量、更可控。每行一条 json,字段包括 timestampurlstatus_codeerror字符串)、duration_msresponse_size

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • log.New(os.Stdout, "", 0) 配合 json.Encoder 写日志,避免拼接字符串引发 panic
  • 按天切分文件,文件名如 probe-2024-06-15.log,便于 shell 脚本归档或 grep -A 5 "error.*timeout" 快速定位
  • 如果需要 Web 查看,加个极简 HTTP handler:读取最近 3 个日志文件,用 Strings.count 统计各状态码出现次数,不渲染页面,只返回 JSON
  • 避免在写日志时做格式转换(如把 time.Time 转 string 再塞进 map),直接用 time.unixMilli(t.UnixMilli()) 存毫秒时间戳,节省 CPU

怎样让多个接口轮询不互相干扰且可动态增删

goroutine + channel 是常见思路,但容易陷入“一个 goroutine 挂了整个轮询停摆”的陷阱。真正健壮的做法是每个 URL 独立 goroutine,并用 sync.Map 管理其运行状态和配置变更信号。

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • 启动时遍历配置,为每个 url 启动一个 go probeLoop(url, interval, stopCh)stopCh 是 per-URL 的 chan Struct{}
  • 配置热更新靠文件监听(fsnotify)触发:读新配置 → 对比旧配置 → 对新增 URL 启新 goroutine,对删除 URL 发送 close(stopCh)
  • 不要用全局 time.Ticker 驱动所有接口,不同接口可能需要不同探测频率(如核心支付接口 5s 一次,后台管理页 60s 一次)
  • sync.Map.LoadOrStore("url", &probeState{}) 缓存上次探测结果,供 Web 接口实时返回“最后成功时间”和“连续失败次数”

为什么不用现成的 prometheus Exporter 而要自己写

因为 Prometheus 模型假设“指标是聚合的、长期存储的”,而 API 监控最痛的点是“刚挂了我还没看清错误信息”。Prometheus 抓取周期默认 15s,up{job="api"} == 0 只告诉你“它坏了”,不告诉你“是证书过期还是后端 Pod 全崩了”。自己写的工具可以:立刻打印完整错误链、保留最近 100 条原始响应头、在失败时自动抓包(调 tcpdump -c 1 -w /tmp/fail-$(date +%s).pcap host example.com)。

实操建议:

立即学习go语言免费学习笔记(深入)”;

  • http.Transportproxy 设为 http.ProxyFromEnvironment,否则公司内网走不了代理,探测永远超时
  • https 接口,加 tls.Config{InsecureSkipVerify: true} 要加开关,默认关闭;生产环境宁可证书报错也不跳过验证
  • 如果目标接口要求带特定 header(如 X-Monitor-Source: api-probe),别写死在代码里,从配置文件读,否则每次改都要 recompile
  • 命令行参数flag.String("config", "config.yaml", "path to config file"),比硬编码路径更符合运维习惯

真正的难点不在发请求,而在错误发生时,你拿到的信息是否足够还原现场——网络层、TLS 层、HTTP 层、业务层的错误必须分层记录,不能只留一句 “request failed”。

text=ZqhQzanResources