推荐使用指数回退策略重试可恢复的 rpc 错误(如 Unavailable、DeadlineExceeded),避免对客户端错误(如 InvalidArgument)或已取消/超时的 context 重试;核心公式为 wait = base × 2^attempt + jitter,典型参数为 base=100ms、最大5次、单次≤1s。

在 go 的 RPC 调用中,网络抖动、服务临时不可用等瞬态错误很常见。直接失败不如主动重试——但盲目重试(如固定间隔、无上限)会加剧拥塞或拖慢响应。使用指数回退(Exponential Backoff)策略重试,能平衡成功率与系统负载,是生产环境的推荐实践。
理解 RPC 错误类型,只对可重试错误重试
不是所有错误都适合重试。比如 InvalidArgument 或 PermissionDenied 是客户端问题,重试无意义;而 Unavailable、DeadlineExceeded、internal(部分场景)通常是服务端瞬时故障,才值得重试。
- 使用 gRPC 时,通过
status.Code(err)判断错误码 - http-based RPC(如 jsON-RPC)可检查 HTTP 状态码(如 503、504)或自定义 Error 字段
- 避免对 context 已取消(
context.Canceled)或超时(context.DeadlineExceeded)的请求重试
实现指数回退:控制重试间隔与上限
核心是让每次重试等待时间随失败次数增长(如 100ms → 200ms → 400ms → 800ms),并设置最大重试次数和最大等待上限,防止无限退避。
- 基础公式:
wait = base * (2^attempt) + jitter,其中jitter是小范围随机偏移,避免大量请求同步重试造成“重试风暴” - 典型参数:base=100ms,最大尝试 5 次,最大单次等待 ≤ 1s
- Go 标准库
time.Sleep配合time.AfterFunc或手动循环即可,无需引入 heavy 依赖
封装可重试的 RPC 客户端调用
将重试逻辑与业务解耦,推荐封装成带 context 和重试选项的通用函数:
立即学习“go语言免费学习笔记(深入)”;
- 接收原始 RPC 函数(如
func(context.Context) (resp, error))作为参数 - 内部按指数回退循环执行,每次前检查 context 是否已取消
- 支持传入自定义重试条件(例如仅重试特定错误码)、最大次数、base delay
- 示例片段:
for i := 0; i resp, err := call(ctx)
if err == nil { return resp, nil }
if !shouldRetry(err) { return nil, err }
if i == maxRetries-1 { return nil, err }
wait := time.Duration(baseMs*int64(1 wait += time.Duration(rand.Int63n(int64(wait/3))) // jitter
select {
case case }
}
补充建议:可观测性与降级兜底
重试不是银弹,需配合监控和降级机制:
- 记录每次重试次数、最终是否成功、耗时,便于定位高频失败服务
- 对关键路径,可配置熔断器(如使用
sony/gobreaker),连续失败后快速失败,跳过重试 - 提供降级返回值(如缓存数据、默认值),避免重试失败导致整个流程阻塞
- 注意:重试会放大请求量,确保下游服务具备相应容量或限流能力
基本上就这些。指数回退不复杂但容易忽略 jitter 和错误分类,补上这两点,RPC 稳定性会有明显提升。