sql慢查询排查核心是“先定位、再归因、后验证”:开启慢查询日志定位问题SQL,用EXPLaiN分析真实执行路径,聚焦索引失效、设计不合理及语句硬伤三类场景,最后通过测试库验证和线上监控闭环确认优化效果。

SQL慢查询排查不是靠猜,核心是“先定位、再归因、后验证”。关键不在改SQL或加索引本身,而在于建立一条可复现、可对比、可闭环的排查链路。
第一步:让慢SQL自己浮出水面
不开启慢查询日志,等于闭眼开车。必须打开它,并设合理阈值:
- mysql中,在my.cnf里加:
slow_query_log=1long_query_time=0.5log_queries_not_using_indexes=1 - 动态开启也行:
SET GLOBAL slow_query_log = 1;SET GLOBAL long_query_time = 0.5; - 重点看日志里的Query_time(真实耗时)、Rows_examined(扫描行数)、Rows_sent(返回行数)——三者比值异常,往往就是问题入口
第二步:用EXPLAIN还原真实执行路径
别拿开发环境的EXPLAIN当真,必须用线上慢日志里记录的完整SQL+真实参数去分析。否则容易误判,比如:
-
type=ALL→ 全表扫描,大概率缺索引或索引失效 -
key=NULL→ 明明建了索引却没用上 -
rows远大于Rows_sent→ 扫得多、回得少,可能有无效过滤或排序开销 -
Extra里出现Using filesort或Using temporary→ ORDER BY/GROUP BY没走索引,或字段类型不匹配
第三步:聚焦三类高频失效场景
80%的慢查根源集中在这几类,逐个对照检查:
- 索引没生效:WHERE里用了函数(
date(create_time))、隐式转换(varchar_id = 123)、左模糊(LIKE '%abc') - 索引设计不合理:联合索引顺序不符合查询条件顺序(违反最左匹配),或覆盖字段不够(导致回表)
- 语句本身有硬伤:select *、子查询嵌套过深、JOIN多表但驱动表选错(没用小表驱动大表)、LIMIT偏移量过大(如
LIMIT 10000,20)
第四步:验证优化是否真正起效
改完别急着上线,按步骤验证:
- 在测试库用相同数据量、相同参数跑一遍EXPLAIN,确认
rows下降、key命中、Extra干净 - 用
SELECT SQL_NO_CACHE ...绕过查询缓存,测真实执行时间 - 上线后盯30分钟慢日志,看该SQL是否消失或耗时降到阈值内
基本上就这些。流程不复杂,但容易忽略真实参数还原和前后对比验证这两步。