gRPC集成Prometheus：统计接口调用耗时分位数(P99)

2次阅读

根本原因是gRPC服务未启用http/1.1的/metrics接口，需另起独立HTTP服务器（如:9091）挂载promhttp.Handler()，并确保prometheus targets指向该端口而非gRPC端口。

gRPC服务暴露/metrics端点但Prometheus抓不到数据

根本原因通常是gRPC服务没启用HTTP/1.1的metrics接口——gRPC本身走HTTP/2，而Prometheus默认用HTTP/1.1抓取/metrics。必须额外起一个独立的HTTP服务器（比如用http.ServeMux）来暴露指标。

别把promhttp.Handler()注册到gRPC的Server上，它不处理HTTP请求
用net/http另起一个端口（如:9091），挂载promhttp.Handler()
确保防火墙或k8s Service允许该端口入站，Prometheus配置里的targets要指向这个HTTP端口，不是gRPC端口
如果用了gRPC-gateway，也别指望它自动透传/metrics——它只转译POST/GET等业务路径

统计gRPC方法耗时，但histogram_bucket标签里没有method名

默认的grpc_server_handled_histogram_seconds指标确实不含method标签，因为官方go-grpc-prometheus库早期版本为减少cardinality主动去掉了它；新版本虽支持，但需手动开启且注意性能影响。

升级到github.com/grpc-ecosystem/go-grpc-prometheus@v2.1.0+（v2+才支持method标签）
初始化时显式调用EnableHandlingTimeHistogram()，并传入WithHistogramBuckets(...)和WithHistogramConstLabels(...)
加WithSubsystem("grpc")避免指标名冲突，否则可能和client端指标重名
注意：开启method标签后，每个gRPC方法都会生成独立时间序列，QPS高时易触发Prometheus内存/存储压力

P99耗时查询结果为空或恒为0

不是Prometheus没采集到，而是直查histogram_quantile(0.99, ...)时，底层bucket数据未覆盖实际耗时范围，或者rate窗口太短导致无样本。

确认你的grpc_server_handled_histogram_seconds_bucket的le标签最大值是否大于真实P99（比如最高只到le="2"，但实际有3秒请求，那P99就永远算不准）
查询时用rate(grpc_server_handled_histogram_seconds_bucket[5m])而非原始计数，否则quantile会失效
避免用太小的range vector（如[1m]），尤其在低流量服务上，可能整个窗口内都没几个样本
检查是否漏掉了grpc_server_handled_histogram_seconds_count和_sum，这两个是histogram_quantile内部依赖的隐含指标

Go服务里同时用grpc.Server和http.Server，指标重复上报

当两个server共用同一组Prometheus注册器（prometheus.Defaultregisterer）且都注册了相同指标（比如都调了promhttp.InstrumentHandlerDuration），会导致duplicate metrics错误，Prometheus抓取失败。

给gRPC和HTTP分别创建独立的*prometheus.Registry，不要共享DefaultRegisterer
gRPC指标用grpc_prometheus.Register(server, grpc_prometheus.WithServerCounter(...))注册到自定义registry
HTTP指标用promhttp.HandlerFor(registry, promhttp.HandlerOpts{})绑定对应registry
启动HTTP server时，确保只暴露你明确注册过的那个registry，别误把prometheus.DefaultGatherer塞进去

真正麻烦的是跨goroutine的指标生命周期管理——比如某个metric在shutdown时被多次Unregister，会panic。得靠sync.Once或显式控制注册时机，这点容易被忽略。

发表于：运维

近一天内

复制链接

IndexedDB 索引未找到错误的完整解决方案

Go语言什么时候必须使用指针_Golang实战使用场景总结

PHP怎么获取表单提交数据_PHP获取POST与GET数据详解【教程】

Python配置热更新实现_动态加载解析【教程】

c++如何实现字符串的按位异或_c++基础加密解密演示【入门】

gRPC集成Prometheus：统计接口调用耗时分位数(P99)

gRPC服务暴露/metrics端点但Prometheus抓不到数据

统计gRPC方法耗时，但histogram_bucket标签里没有method名

P99耗时查询结果为空或恒为0

Go服务里同时用grpc.Server和http.Server，指标重复上报

如何让 span 包裹的链接支持键盘可访问（Tab + Enter 触发跳转）

Sublime如何使用多窗口分屏编辑 Sublime布局网格调整方法【高效】

c++中如何实现简单的优先队列排序_c++ std::greater比较器应用【详解】

sublime如何快速删除光标前所有内容_Sublime删除行首快捷键【快捷键】

C# MAUI怎么连接SQL Server MAUI远程数据库访问

Gorilla Mux 单一处理器匹配多域名路由模式的实践方案

SQL PostgreSQL 的 autovacuum vs manual VACUUM 的触发时机与 IO 影响控制

如何在 PHP 用户资料编辑中安全校验邮箱唯一性

Laravel 8 中合并销售与采购数据并按商品聚合统计的完整实现

Redux 中 state 未正确接收后端数据的根本原因及解决方案