SQL pg_stat_statements 的 call_count 与 total_time 排序分析慢 SQL 模板

2次阅读

不一定值得——高call_count仅说明执行频繁,单次快(avg_ms小)通常因逻辑简单、命中缓存或走索引;应重点关注单次耗时高(avg_ms>10ms)或总耗时占比大的语句。

SQL pg_stat_statements 的 call_count 与 total_time 排序分析慢 SQL 模板

pg_stat_statements 里 call_count 高但 total_time 低的 sql 值得优化吗?

不一定值得——高 call_count 只说明执行频繁,但单次快(total_time / call_count 小)往往意味着逻辑简单、命中缓存或走索引。真要盯的是「单次耗时高」或「总耗时占比大」的语句。

实操建议:

  • 优先算 total_time / calls(平均耗时),> 10ms 的才列入慢 SQL 初筛
  • total_time 排序看“总时间大户”,它们哪怕只调用几次,也可能拖垮整体响应
  • call_count 单独排序容易误伤 select 1、健康检查 SQL 这类本该轻量的语句

如何用 pg_stat_statements 快速定位真实慢 SQL?

直接查视图时别只 ORDER BY total_time DESC,那会把大事务里的长耗时语句埋没;要加权重、过滤噪声。

实操建议:

  • 排除自动解析语句:WHERE query NOT LIKE 'EXPLAIN%'NOT LIKE 'DEALLOCATE%'
  • 聚焦用户业务 SQL:WHERE calls > 10 AND total_time > 10000(单位 ms,即总耗时超 10 秒)
  • 加平均耗时列:ROUND(total_time::numeric / NULLIF(calls, 0), 2) AS avg_ms,再按此排序
  • 示例查询片段:
    SELECT query, calls, total_time, ROUND(total_time/calls, 2) AS avg_ms FROM pg_stat_statements WHERE calls > 10 AND total_time > 10000 ORDER BY avg_ms DESC LIMIT 5;

total_time 包含哪些开销?为什么它可能远大于 EXPLAIN ANALYZE 的 execution time?

total_time 是从 postgresql 后端收到请求到返回结果的完整耗时,包含网络、锁等待、WAL 写入、缓冲区刷盘等所有环节,不是纯执行计划耗时。

常见偏差原因:

  • 锁竞争:另一事务长期持有行锁,当前 SQL 在 waiting 状态的时间全算进 total_time
  • IO 延迟:shared_buffers 不够,频繁读磁盘,EXPLAIN ANALYZE 不体现磁盘寻道时间
  • 并发挤占:高并发下 CPU 调度延迟、上下文切换开销被计入
  • 注意:pg_stat_statements 默认不统计触发器、函数内部语句(除非开启 track_activity_query_size 和细粒度配置)

call_count 为 0 或 total_time 极小但 SQL 明显卡顿?可能是统计被重置或未启用

pg_stat_statements 不是永久存储,数据在服务器重启、手动 pg_stat_statements_reset() 或共享内存溢出时会清零。另外,它默认不收集所有 SQL。

排查步骤:

  • 确认插件已加载:SELECT * FROM pg_extension WHERE extname = 'pg_stat_statements';
  • 检查是否启用:SHOW pg_stat_statements.track; —— 必须是 topall,不能是 none
  • 验证统计是否活跃:SELECT count(*) FROM pg_stat_statements WHERE calls > 0; 若为 0,说明没采集到任何语句
  • 注意:RDS/云数据库常默认关闭该插件,需进控制台手动开启并重启实例

实际分析时最易忽略的点是——pg_stat_statements 统计的是「归一化后」的 SQL 模板(参数被 ? 替换),你看到的 query 字段可能掩盖了具体值导致的执行计划突变。真要定位某次异常,得结合 log_min_duration_statement 日志对齐时间戳。

text=ZqhQzanResources