如何使用Golang实现服务健康检查_云原生健康检测设计

11次阅读

go http服务健康检查需分离/readyz与/livez端点：/readyz检查DB等依赖，/livez仅检测进程僵死；并发探测依赖并设1.5秒超时；Shutdown前须关闭健康端点或用原子开关。

Go HTTP 服务内置 `/health` 端点怎么写才不踩坑

直接暴露 http.HandleFunc("/health", ...) 很容易返回 200 却掩盖真实问题。健康检查必须区分「服务可访问」和「服务可工作」——比如数据库连不上时，/health 仍返回 200 就会误导 kubernetes 的 livenessProbe。

用 http.HandlerFunc 而非中间件封装，避免被其他中间件（如 auth、Logging）干扰状态码
响应体必须是纯文本或极简 jsON，不要带额外 header（如 X-Request-ID），K8s 默认只读取状态码和 body 前几 KB
超时必须硬性控制：整个 handler 执行不能超过 2 秒，否则 K8s 会触发重启；建议用 context.WithTimeout(r.Context(), 1500*time.Millisecond)
不要在健康检查里调用外部服务的「完整链路」，只查直连依赖：DB 连接、本地磁盘空间、关键 goroutine 是否卡死

`net/http` 中如何做依赖探测而不阻塞主线程

健康检查里逐个 ping mysql、redis、etcd 容易因某个依赖超时拖垮整个 endpoint。正确做法是并发探测 + 快速失败。

func healthHandler(w http.ResponseWriter, r *http.Request) {     ctx, cancel := context.WithTimeout(r.Context(), 1500*time.Millisecond)     defer cancel() type result struct {     name string     err  error } ch := make(chan result, 3)  go func() {     err := checkMySQL(ctx)     ch zuojiankuohaophpcn- result{name: "mysql", err: err} }() go func() {     err := checkRedis(ctx)     ch zuojiankuohaophpcn- result{name: "redis", err: err} }() go func() {     err := checkDisk(ctx)     ch zuojiankuohaophpcn- result{name: "disk", err: err} }()  var failed []string for i := 0; i zuojiankuohaophpcn 3; i++ {     select {     case r := zuojiankuohaophpcn-ch:         if r.err != nil {             failed = append(failed, r.name)         }     case zuojiankuohaophpcn-ctx.Done():         http.Error(w, "timeout", http.StatusServiceUnavailable)         return     } }  if len(failed) > 0 {     w.WriteHeader(http.StatusServiceUnavailable)     fmt.Fprintf(w, "unhealthy: %v", strings.Join(failed, ", "))     return } w.WriteHeader(http.StatusOK) fmt.Fprint(w, "ok")
}
Kubernetes readinessProbe 和 livenessProbe 怎么配 Go 服务
两个 probe 语义完全不同：readinessProbe 决定是否往 Pod 转发流量，livenessProbe 决定是否杀掉容器重拉。用同一个 /health endpoint 是常见错误。
立即学习“go语言免费学习笔记（深入）”；

 readinessProbe 应该调用 /readyz，检查 DB 连接、配置加载、gRPC server 是否已启动监听
 livenessProbe 应该调用 /livez，只检查进程是否僵死（例如通过 runtime.NumGoroutine() 判断是否远超正常值，或检测 http.Server.Shutdown 是否卡住）
两者都必须设 initialDelaySeconds: 10，防止容器刚启动就探活失败被误杀
不要用 exec 探针调 curl，Go 二进制默认不带 shell，要用 httpGet 直接请求

为什么 http.Server.Shutdown() 期间健康检查会失效
当调用 srv.Shutdown() 后，http.Serve() 返回，但 handler 函数仍可能在执行中。如果此时 K8s 发来健康检查请求，会 panic 或返回空响应。

必须在 Shutdown 前先关闭健康检查 endpoint：用 http.NewServeMux() 分离主路由和健康路由，shutdown 时只关主 mux
或者用原子开关：定义 var isShuttingDown atomic.bool，所有健康 handler 开头加 if isShuttingDown.Load() { w.WriteHeader(http.StatusServiceUnavailable); return } 
更稳妥的是用 server.RegisterOnShutdown() 回调，在 shutdown 开始时主动把 /health 状态置为 failing

实际部署中最容易被忽略的是 probe 的 failureThreshold 和 periodSeconds 组合。比如设成 failureThreshold: 1 + periodSeconds: 1，只要一次网络抖动就杀 Pod，比健康检查逻辑本身还危险。

发表于：数据库

2026-01-14

# ai # app # bool # curl # etcd # go # golang # http # if # js # json # kubernetes # Logging # mysql # redis # var # 中间件 # 主线程 # 封装 # 并发 # 数据库 # 状态码 # 线程 # 路由

复制链接

mysql组复制的应用场景

SQL 排序与索引的关系

如何在mysql中实现任务分配系统_mysql任务分配项目实战

mysql事务中的锁定机制与死锁优化

如何用JavaScript实现深拷贝_有哪些常用技巧

如何使用Golang实现服务健康检查_云原生健康检测设计

Go HTTP 服务内置 `/health` 端点怎么写才不踩坑

`net/http` 中如何做依赖探测而不阻塞主线程

Kubernetes readinessProbe 和 livenessProbe 怎么配 Go 服务

为什么 `http.Server.Shutdown()` 期间健康检查会失效

SQL数据库大表查询优化_减少扫描行数策略

/ proc/meminfo Committed_AS 远超物理内存+swap 的 overcommit 风险

PHP 中使用 curl_exec() 执行 HTTP 请求的正确方式

如何使用Golang操作interface类型_Golang reflect.Value.Interface实践

composer如何更新composer.phar到最新版本_composer self-update教程【实战】

php表单输入转整型注意啥_先过滤再转换保安全【指南】

如何使用Golang实现文件分割_Golang大文件分割与合并方法

如何仅用 CSS 实现点击切换图片（非 JavaScript 方案）

Linux SSH 密钥认证失败的常见原因

Windows下PHP执行PY报错咋弄_跨系统兼容问题解决方法【指南】

如何使用Golang实现服务健康检查_云原生健康检测设计

Go HTTP 服务内置 /health 端点怎么写才不踩坑

net/http 中如何做依赖探测而不阻塞主线程

Kubernetes readinessProbe 和 livenessProbe 怎么配 Go 服务

为什么 http.Server.Shutdown() 期间健康检查会失效

Go HTTP 服务内置 `/health` 端点怎么写才不踩坑

`net/http` 中如何做依赖探测而不阻塞主线程

为什么 `http.Server.Shutdown()` 期间健康检查会失效