go rpc异常处理应封装语义化错误类型、集成智能重试中间件、统一错误日志与响应、受context严格约束重试生命周期,核心是错误可分类、重试有边界、日志可追溯、上下文不丢失。

在 Go 的 RPC 调用中,异常(如网络超时、服务不可用、序列化失败)很常见。直接裸写 if err != nil 容易导致错误处理散落、重试逻辑重复、业务代码被干扰。推荐做法是:封装统一的错误分类 + 基于错误类型的智能重试 + 透明注入到 RPC 客户端中。
定义可识别的 RPC 错误类型
不要直接返回 Errors.New 或 fmt.Errorf,而是构建带语义的错误结构,便于后续判断是否可重试:
- 使用自定义错误类型(如
RPCTimeoutError、RPCUnavailableError),实现IsTimeout()、IsNetwork()等方法 - 或统一用
errors.Is(err, ErrTimeout)风格,配合预定义变量(如var ErrTimeout = errors.New("rpc timeout")) - 对底层错误(如
net.OpError、context.DeadlineExceeded)做包装和归类,避免业务层直接依赖底层细节
在客户端中间件中集成重试逻辑
把重试从每个调用点抽离出来,在 RPC 客户端初始化时配置策略,让调用方无感:
- 使用
grpc-go可启用内置重试:设置grpc.WithDefaultCallOptions(grpc.RetryPolicy(...)) - 自研 http 或 jsON-RPC 客户端时,封装
DoWithRetry(req, opts)方法,支持最大重试次数、指数退避、错误白名单(仅对IsNetwork()或IsTimeout()错误重试) - 避免对
InvalidArgument、NotFound等业务错误重试——它们不会因重试而成功
统一错误响应与日志上下文
所有 RPC 异常最终应经过统一出口,方便监控和排查:
立即学习“go语言免费学习笔记(深入)”;
- 定义中间件或 defer 函数,在 RPC 调用后拦截错误,打上 traceID、method、target 服务名等字段再记录
- 对可重试错误(如超时)降低日志等级(
debug或info),对永久性错误(如Unauthorized)记为warn或error - 向调用方返回标准化错误码(如
ErrCodeNetwork)+ 原始错误原因(用于调试),而非原始底层错误(避免暴露内部细节)
结合 context 控制重试生命周期
重试不是无限循环,必须受顶层 context 约束:
- 每次重试前检查
ctx.Err() != nil,若已取消或超时则立即退出 - 推荐用
context.WithTimeout(parentCtx, totalTimeout)创建重试总上下文,而不是对每次重试单独设 timeout - 退避时间建议从 100ms 开始,乘以 2 的幂次(100ms → 200ms → 400ms),并加入小范围 jitter(如 ±10%)防雪崩
基本上就这些。核心是:错误可分类、重试有边界、日志可追溯、上下文不丢失。不复杂但容易忽略的是——别让重试掩盖了服务稳定性问题,记得在监控里单独看「重试率」指标。