go中实现可重试错误处理需判断临时性错误(如超时、5xx状态码)、用Errors.Is/As识别、配合指数退避(100ms起)、限制次数(3~5次)并检查context取消。

Go 中实现可重试的错误处理,核心是「在错误发生时暂停、判断是否可重试、执行重试动作」,而不是简单地用 for 循环套 try-catch(Go 本身没有 try-catch)。关键在于控制重试次数、间隔、条件和上下文传递。
明确哪些错误值得重试
不是所有错误都适合重试。一般只对临时性错误(transient errors)重试,比如网络超时、服务暂时不可用、数据库连接抖动等;而像参数错误、权限拒绝、数据不存在等永久性错误,重试无意义,应立即返回。
- 常见可重试错误:`net.OpError`(如 timeout、i/o timeout)、`context.DeadlineExceeded`、http 状态码 429/500/502/503/504
- 建议用错误包装(`errors.Is` / `errors.As`)判断类型,避免字符串匹配
- 可封装一个函数:isRetryable(err error) bool,集中管理重试判定逻辑
基础重试循环:带次数和延迟
最简方式是用 for + time.Sleep 控制重试。注意不要阻塞 goroutine 过久,推荐使用指数退避(exponential backoff)避免雪崩。
- 初始延迟建议 100ms,每次乘以 2(如 100ms → 200ms → 400ms)
- 最大重试次数通常设为 3~5 次,太多反而延长失败响应时间
- 每次重试前检查 context 是否已取消,及时退出
示例:
func doWithRetry(ctx context.Context, op func() error, maxRetries int) error { var err error delay := 100 * time.Millisecond for i := 0; i <= maxRetries; i++ { if i > 0 { select { case <-time.After(delay): case <-ctx.Done(): return ctx.Err() } delay *= 2 // 指数退避 } err = op() if err == nil { return nil } if !isRetryable(err) { return err } } return err }
用第三方库简化(推荐 production 场景)
自己实现易出错(比如忘记 cancel、没处理 jitter、没做 metrics)。成熟库如 hashicorp/go-retryablehttp 或 cenkalti/backoff/v4 更可靠。
- backoff/v4:专注退避策略,支持 jitter、context、自定义重试判定
- 配合 retry.Retry 或 backoff.Retry 可一行接入
- 示例:
backoff.Retry(func() error { return apiCall() }, b),其中b是配置好的 backoff.BackOff
注意上下文与状态一致性
重试不等于“再跑一遍”,尤其涉及副作用操作(如发消息、扣库存、写日志)时,必须确保幂等性。
- 避免在重试体内部修改共享状态(如全局变量、未加锁结构体字段)
- 传入的函数
op应是纯操作或自带幂等标识(如带唯一 request ID) - 如果操作本身不可重入,应在上层加锁或改用补偿机制(如事务+重试队列)
基本上就这些。重试不是万能胶,重点是判明错误性质、控好节奏、保住语义正确。写得克制,比写得频繁更可靠。