SQL GROUP BY执行原理_分组聚合流程解析

1次阅读

group by 执行有严格逻辑顺序：先 where 过滤，再 group by 分组，接着聚合计算，然后 having 过滤，最后 select 输出；分组键按值相等判定，NULL 视为相同；聚合函数逐行更新组内状态；性能受索引、内存和排序影响。

GROUP BY 的执行不是简单地把数据“按列切开”，而是经历一个有顺序、可优化的内部流程。理解这个过程，能帮你写出更高效、更准确的分组查询，也能避开常见陷阱（比如 SELECT 列不合法、聚合结果意外丢失等）。

sql 标准规定了逻辑执行顺序（注意：不是物理执行顺序，但决定了你能写什么、结果是什么）：

分组依据是表达式计算后的值是否“相等”。关键细节：

字符串比较默认区分大小写（取决于 collation），‘A’ 和 ‘a’ 可能分到不同组
NULL 被视为彼此相等，所有 NULL 值会归入同一个组（这是 SQL 标准行为，不是 bug）
可以对表达式分组，例如 GROUP BY YEAR(order_date), customer_id % 10，只要表达式确定、可比即可
多列组合分组时，等价于按元组比较：(a=1,b=NULL) 和 (a=1,b=NULL) 是同一组；但 (a=1,b=NULL) ≠ (a=1,b=0)

像 SUM()、AVG() 这类函数，并非“先算总和再分组”，而是：

物理执行效率高度依赖数据分布和可用资源：

如果 GROUP BY 列上有索引（尤其是前导列匹配），数据库可能利用索引有序性避免额外排序（如 mysql 的 Index-Only Scan 或 postgresql 的 Index Scan + HashAggregate）
大分组数 + 小内存 → 可能触发磁盘临时表（spill to disk），显著拖慢速度
ORDER BY 与 GROUP BY 字段一致时，部分引擎（如 SQL Server）可复用排序结果，减少开销
使用 GROUP BY ALL（某些方言支持）会保留空组，但需额外计算，慎用

发表于：数据库

近一天内

复制链接

如何在 Selenium 中高效等待元素 ID 出现（支持超长加载场景）

html5怎么设置边框实线_跨环境html5实线边框统一法【介绍】