SQL 聚合函数与窗口函数结合应用

1次阅读

可以,但需分两层:先用group by聚合并用cte或子查询封装,外层再对聚合结果使用row_number()开窗;直接在同一select中混用会报错。

SQL 聚合函数与窗口函数结合应用

GROUP BY 后还能不能用 ROW_NUMBER()?

不能直接用,会报 Error: column "xxx" must appear in the GROUP BY clause or be used in an aggregate function。窗口函数在 sql 执行顺序中晚于聚合(GROUP BY → 聚合计算 → 窗口计算),所以先 GROUP BY 再想开窗,得把聚合结果当子查询或 CTE。

  • 正确做法是:先用子查询/CTE 完成聚合,外层再对聚合结果开窗
  • 别试图在同一个 SELECT 中既写 count(*) 又写 ROW_NUMBER() OVER (...) 且带 GROUP BY —— 大多数数据库postgresqlmysql 8.0+、SQL Server)都会拒绝
  • 例外:sqlite 支持部分“宽松”语法,但行为不可移植,不建议依赖

如何给每个分组内的聚合结果排序并取 Top N?

典型场景:查每个部门工资总和,并按总和降序排,只取前 3 个部门。这时需要两层逻辑:第一层算聚合,第二层开窗编号。

  • 用 CTE 包住聚合查询:WITH dept_sum AS (SELECT dept, SUM(salary) AS total FROM emp GROUP BY dept)
  • 外层加窗口函数:SELECT dept, total, ROW_NUMBER() OVER (ORDER BY total DESC) AS rn FROM dept_sum
  • 最后加 WHERE rn —— 注意不能在 CTE 内直接 <code>WHERE ROW_NUMBER() ,窗口函数不能出现在 WHERE 中
  • 如果要“每组内 Top N”(比如每个城市里订单数最多的 2 个用户),则窗口的 PARTITION BY city 必须和聚合维度对齐,否则逻辑错乱

SUM() OVER () 和 SUM() 的性能差多少?

差别可能极大,尤其数据量大时。SUM()聚合函数,输出一行;SUM() OVER () 是窗口函数,为每一行输出一个累计值,结果集行数不变 —— 这意味着它不会减少中间数据量,反而可能阻止优化器下推过滤条件。

  • 如果只是要全表总和,用 SUM() + GROUP BY () 或直接标量子查询,比 SUM() OVER () 更轻量
  • SUM() OVER (ORDER BY ...) 会触发排序,若 ORDER BY 字段无索引,可能产生临时文件和磁盘排序
  • PostgreSQL 中,SUM() OVER () 通常走 Seq Scan + HashAggregate,而普通 SUM() 可能被优化为 Index-Only Scan(如果有覆盖索引)
  • MySQL 8.0 对窗口函数支持较晚,某些复杂窗口帧(如 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)性能波动明显,建议 EXPLAIN 分析执行计划

COUNT(*) OVER (PARTITION BY x) 返回的是什么?

返回当前行所在分区(即 x 值相同的全部行)的总行数,不是去重数,也不是聚合后的记录数 —— 它统计的是原始行数,哪怕这些行在 GROUP BY 后会被压成一行。

  • 常见误用:在已 GROUP BY 的查询里写 COUNT(*) OVER (PARTITION BY dept),结果不是“每个部门几条聚合记录”,而是“每个部门原始数据有几行”
  • 如果想统计每个部门聚合后的记录数,应该用 COUNT(*) 而非窗口函数,或者先 CTE 再窗口
  • 注意 NULL:如果 PARTITION BY 字段为 NULL,所有 NULL 值会被划入同一个分区(标准 SQL 行为),这点和 GROUP BY 一致
  • 在需要“显示明细+附带分组计数”的报表场景中很实用,但别把它当 GROUP BY ... HAVING COUNT > 1 的替代品

事情说清了就结束。窗口函数和聚合混用最常卡在执行顺序和作用域上,多一层子查询看着啰嗦,其实是 SQL 引擎真正能理解的表达方式。

text=ZqhQzanResources