SQL Grafana 的慢查询 P99 延迟曲线与告警阈值联动

2次阅读

postgresql用户用percentile_cont(0.99) within group (order by latency_ms)计算p99，需配合time_bucket()或date_trunc()分组；mysql需percentile_cont()加over(order by)；prometheus须预计算histogram_quantile；告警需reduce取max/mean并统一时间窗口。

如何用 SQL 在 grafana 中计算 P99 延迟

Grafana 本身不直接支持百分位计算，得靠数据源（如 PostgreSQL、MySQL、Prometheus + pg_exporter）的聚合能力。PostgreSQL 用户最稳：用 percentile_cont()；MySQL 8.0+ 可用 PERCENTILE_CONT() 窗口函数，但注意它必须配合 OVER() 和排序，不能当普通聚合用。

常见错误是写成 select PERCENTILE_CONT(0.99) FROM logs —— 这会报错，因为没指定排序依据。正确写法必须带 ORDER BY latency_ms：

SELECT   time_bucket('5m', time) AS t,   percentile_cont(0.99) WITHIN GROUP (ORDER BY latency_ms) AS p99_latency FROM http_requests WHERE time > now() - interval '1h' GROUP BY t ORDER BY t

注意：time_bucket() 是 TimescaleDB 扩展函数，原生 PostgreSQL 需用 date_trunc('minute', time) 替代；如果用 Prometheus，得提前在 exporter 或 recording rule 里算好 histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))，否则 Grafana 查不了原生分位数。

Grafana 告警规则里怎么引用 P99 查询结果

告警阈值不能写死数字，得和 P99 曲线联动——本质是让告警条件基于同一查询的动态输出。关键点：告警规则必须用「Reduce」操作把时间序列压成单个标量，再和阈值比。

常见坑：last() 不可靠，P99 是统计值，可能因窗口内数据稀疏而跳变；推荐用 mean() 或 max()（看业务容忍度）：

在 Grafana 告警规则编辑页，Query 选中你的 P99 查询（比如 alias: p99_latency）
点击「Reduce」→ 选 Max（取最近 5 个点的最大 P99，防毛刺）或 Mean（更平滑）
Condition 设为 WHEN last() OF query A IS ABOVE 1200，这里 1200 单位是毫秒，对应 1.2 秒阈值
别漏掉「No Data / NULL / Error Handling」设为 Keep Last，否则查不到数据时告警静默

P99 延迟曲线和告警不同步？检查时间范围对齐

图表显示的 P99 是过去 1 小时每 5 分钟一个点，但告警默认只看最近 10 分钟数据——两者窗口不一致，就会出现“图上已飙高，告警却没触发”。

必须手动统一：

图表查询里的 WHERE time > now() - interval '1h' 要和告警规则的「Evaluate every」+「for」时间匹配
例如告警设为「每 2 分钟评估一次，持续 5 分钟触发」，那查询的 time range 至少得覆盖最近 7 分钟，否则 Reduce 拿不到足够点
TimescaleDB 用户注意：time_bucket() 的区间左闭右开，time_bucket('5m', '2024-06-01 12:00:00') 实际覆盖 [12:00:00, 12:05:00)，别让告警窗口卡在桶边界上

为什么 P99 告警老是误报或漏报

根本原因常不在 SQL 或 Grafana 配置，而在数据质量本身：延迟字段为空、负数、单位混用（秒 vs 毫秒）、采样率过低。

实操排查顺序：

先查原始数据分布：SELECT count(*), min(latency_ms), max(latency_ms), avg(latency_ms) FROM http_requests WHERE time > now() - interval '5m' —— 如果 min 是负数或 max 超过 60 秒，说明埋点有 bug
确认单位：Prometheus 的 http_request_duration_seconds 是秒，但 Grafana 图表 Y 轴标成 ms 就会误导；SQL 里统一转成毫秒：latency_ms * 1000
采样影响：如果只采集了 1% 请求，P99 统计就不可信；PostgreSQL 可加 TABLESAMPLE SYSTEM(10) 测试，但生产环境务必全量 or 稳定采样策略

最易被忽略的是时间精度：PostgreSQL 的 timestamp without time zone 默认到微秒，但 Grafana 查询可能截断到秒，导致同一批请求被分到不同 time_bucket，P99 波动放大。统一用 timestamptz 并显式 cast 到毫秒级精度。

发表于：数据库

近两天内

复制链接

mysql在Ubuntu上使用dpkg安装时遇到的配置问题

如何在mysql中升级性能参数

如何在Windows系统安装mysql_mysql Windows安装完整流程

如何在mysql中优化索引列顺序

Go 中使用 Channel 作为并发 Map 值的安全实践与陷阱规避

SQL Grafana 的慢查询 P99 延迟曲线与告警阈值联动

如何用 SQL 在 grafana 中计算 P99 延迟

Grafana 告警规则里怎么引用 P99 查询结果

P99 延迟曲线和告警不同步？检查时间范围对齐

为什么 P99 告警老是误报或漏报

PHP怎么输出arraylist_空数组会显示什么要注意什么【操作】

mysql安装过程中提示权限不足的原因分析

SQL REGEXP_SUBSTR 与复杂字符串解析

Laravel 中基于用户关联关系高效筛选外部新闻数据的完整实践

composer提示The requested package could not be found怎么办_composer包名错误解决方法【汇总】

如何查看表索引_mysql索引信息查询

mysql主从复制需要哪些权限_mysql同步权限说明

Golang中的指针与结构体类型_Golang指针结构体传递与管理技巧

Sublime如何设置文件保存时自动格式化？（工作流优化）

CSS自定义属性初探_CSS变量–var的定义与调用