服务注册须待grpc和健康检查服务就绪后执行,避免过早注册导致调用失败;服务发现需容忍空列表与临时故障,采用降级地址、缓存及长轮询优化;etcd与consul的Watch机制差异要求分别适配;gRPC默认resolver不支持动态权重,需自研balancer实现指标驱动路由。

服务注册必须在 gRPC 服务真正就绪后执行
很多 golang 微服务一启动就立刻向 Consul 或 Etcd 注册,结果 gRPC 服务端还没监听完端口、健康检查接口也未就绪,导致其他服务刚拉到这个实例就发起调用,直接失败。注册动作不能放在 main() 开头,得等 grpc.Server 已绑定端口且 http.Server(用于 /health)已启动成功后再触发。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 用
net.Listener的Addr()确认端口已分配,再调用注册逻辑 - 对 Consul,注册前先发一次
PUT /v1/agent/check/pass/service:xxx确保健康检查初始状态为 passing - 注册时传入的
TTL值(如 30s)要明显大于你心跳间隔(如 10s),否则可能因网络抖动被误剔除 - 若用
etcd,避免直接写/services/{name}/{instance-id}键,应配合Lease绑定租约,否则进程崩溃后键不会自动过期
服务发现需容忍空列表和临时故障
service.Discover() 返回空切片不是异常,而是常态——注册中心可能正同步、目标服务暂无健康实例、或 ACL 权限未生效。硬编码 panic 或重试 3 次就退出,会导致整个调用链雪崩。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 首次发现失败时,不要立即返回错误,先 fallback 到本地预设的静态地址(如
localhost:8081),仅用于开发或降级 - 使用带缓存的发现器(如封装
sync.map存最近 30s 内的有效 endpoints),避免每次 RPC 都查注册中心 - 对
consul-api的Health.Service调用,显式设置WaitTime: 5 * time.Second,利用其 long polling 减少轮询压力 - 若用
grpc-go的resolver.Builder,务必实现ResolveNow方法,在连接断开时主动触发重新发现,而不是等下一次 dial
etcd v3 与 Consul 的 Watch 行为差异直接影响重连逻辑
etcd 的 Watch 是 stream-based,一次建立长连接可收多个事件;Consul 的 Blocking Query 是 request-response 模式,每次最多返回一个变更,且必须手动发起下一次请求。混用两者抽象层,容易漏事件或堆积 goroutine。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- etcd 客户端用
clientv3.Watcher启一个常驻 goroutine,收到mvccpb.Event_EventType_DELETE时清理本地缓存,不依赖超时剔除 - Consul 客户端必须维护一个递增的
index,每次请求带上上一轮返回的X-Consul-Index,并捕获404或412错误来重置 index - 两种客户端都应设置独立的 context timeout(如 30s),防止 Watch 卡死阻塞整个服务生命周期
- 别在
Watch回调里直接修改 gRPC 的balancer.ClientConn,应通过 channel 发送变更事件,由单独 goroutine 汇总后批量更新
gRPC 内建 resolver 不支持动态权重,需自行扩展负载均衡策略
grpc-go 默认的 dns 或 passthrough resolver 只做地址解析,不参与选节点;即使你注册时写了 Weight: 100,也不会被感知。想实现按机器负载、延迟、版本灰度路由,必须自己写 balancer.Balancer。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 继承
base.PickerBuilder,在Pick()中读取本地采集的指标(如 prometheus 拉取的go_goroutines)做加权随机 - 避免在
Pick()中同步调用 HTTP 接口查指标,改用定时拉取 + 内存 cache(如每 5s 更新一次) - 若用 istio,可跳过自研 balancer,直接在
DestinationRule里配trafficPolicy.loadBalancer,但需确保服务注册时打上正确version标签 - 测试时用
grpc.WithResolvers()替换默认 resolver,不要动grpc.Dial的target字符串格式,否则:///前缀解析会出错
服务发现最麻烦的从来不是“怎么连上注册中心”,而是“怎么判断一个实例到底能不能用”——健康检查路径是否真返回 200、TCP 连通但 TLS 握手卡住、DNS 缓存未刷新、甚至注册中心自身脑裂。这些细节不压测到 1000 QPS 以上根本暴露不出来。