为Go项目配置Jaeger客户端_分布式追踪环境搭建

2次阅读

必须显式配置reporter和sampler(如jaeger.newremotereporter与jaeger.newprobabilisticsampler),并确保servicename合法、网络可达、context透传完整,否则tracer初始化失败或span静默丢失。

为Go项目配置Jaeger客户端_分布式追踪环境搭建

go项目里怎么初始化jaeger.Tracer才不崩

直接用jaeger.NewTracer会 panic,因为底层依赖io.Closer和 reporter 配置,没设好就挂。必须显式传 reporter 和 sampler,哪怕只是用jaeger.NewConstSampler(true)临时开全量采样。

常见错误现象:panic: runtime Error: invalid memory address or nil pointer dereference,通常是因为tracer为 nil 后还调用了StartSpan

  • Reporter 至少选一个:jaeger.NewRemoteReporter(发 udp 到 agent)或jaeger.NewhttpReporter(直连 collector,需开 CORS)
  • Sampler 推荐用jaeger.NewProbabilisticSampler(0.01)上线后降采样,别用ConstSampler(true)压测以外的环境
  • ServiceName 必须设,且不能含下划线或大写字母,否则 Jaeger ui 不显示服务名

UDP reporter 连不上 Jaeger Agent 怎么查

Go 默认走 UDP 发 span,但本地 docker 网络、Mac 的防火墙、K8s Pod 网络策略都可能拦掉 6831/6832 端口。不是代码问题,先看网络通不通。

使用场景:本地开发用docker run -d -p 6831:6831/udp jaegertracing/all-in-one起 agent,Go 项目默认连localhost:6831——但这在 Docker for Mac 或 linux 容器里根本连不到 host。

  • Mac 上改用host.docker.internal:6831;Linux 宿主机用172.17.0.1:6831(Docker0 网桥地址)
  • 加一句log.printf("reporter connected: %v", r.IsConnected())确认 reporter 状态,它不会主动报错,静默丢 span
  • netstat -anu | grep 6831tcpdump -i any udp port 6831抓包验证是否真发出去了

opentracing.StartSpanFromContext为什么总返回 nil span

不是函数写错了,是 context 里压根没塞过 span。Go 的 tracing 是靠 context 透传的,上游没 inject,下游就 extract 不到,StartSpanFromContext只能 fallback 成无 parent 的 root span,但如果你误以为它该继承 parent,就会发现链路断了。

典型场景:HTTP handler 里没从r.Context()取 span,而是直接tracer.StartSpan("http.handle"),导致所有子 span 都挂在 root 下,看不出调用层级。

  • 务必在入口处做 extract:spanCtx, _ := tracer.Extract(opentracing.HTTPHeaders, opentracing.HTTPHeadersCarrier(r.Header))
  • 然后span := tracer.StartSpan("xxx", ext.RPCServerOption(spanCtx)),别漏RPCServerOption这类语义标记
  • 如果用 gin/echo,要自己写中间件注入/extract,官方 middleware 有 bugv1.34+前对X-B3-TraceId支持不全

Jaeger client 升级到 v2.30+ 后 span 不上报了

v2.29 起 Jaeger Go client 彻底弃用 OpenTracing,转向 OpenTelemetry 兼容层,jaeger-client-go 已归档。新版本jaeger-client-go/v2Tracer接口变了,StartSpan签名加了...opentracing.StartSpanOption,但实际行为已不兼容老写法。

性能影响:新版默认启用 batch reporter,缓冲 100 个 span 才发,若请求少、生命周期短(如 CLI 工具),进程退出前 span 就丢了。

  • 立刻检查go.mod里是不是拉到了github.com/jaegertracing/jaeger-client-go/v2,如果是,退回v2.28.0或切 OpenTelemetry SDK
  • 若坚持用 v2.30+,必须调reporter.Close()再 exit,或设jaeger.NewConstSampler(true) + jaeger.NewInMemoryReporter()本地调试
  • HTTP reporter 的timeout默认 5s,高延迟网络下容易超时丢 span,建议显式设jaeger.HTTPTimeout(30 * time.Second)

事情说清了就结束。最常被忽略的是 reporter 的生命周期管理和 context 透传的完整性——前者导致 span 静默丢失,后者让链路图变成一散点。

text=ZqhQzanResources