SQL数据库窗口函数原理_overpartition详解

13次阅读

sql窗口函数的核心是不压缩行数、保留明细并按逻辑窗口动态计算,由OVER标识,需配合PARTITION BY定义分组边界、ORDER BY确定计算顺序,必要时用ROWS/RANGE限定物理或值范围。

SQL数据库窗口函数原理_overpartition详解

SQL窗口函数的核心在于不压缩行数、保留明细、按逻辑“窗口”动态计算。OVER 是它的语法标识,PARTITION BY 和 ORDER BY 是两个最常用也最关键的子句,它们共同决定了“在哪一组、按什么顺序、对哪些行做计算”。

OVER 是窗口的“开关”,不是可有可无的修饰

所有窗口函数(如 SUM()、ROW_NUMBER()、LAG())必须跟 OVER(),否则就退化为普通聚合或标量函数。比如:

  • SUM(salary) → 对整张表求和,只返回一行
  • SUM(salary) OVER() → 对整张表求和,但为每一行都复制这个总和值,行数不变
  • SUM(salary) OVER(PARTITION BY dept) → 按部门分组求和,每行显示其所在部门的总薪资

PARTITION BY 定义“计算边界”,类似 GROUP BY 但不合并行

它把数据切分成多个独立计算单元,每个单元内单独执行窗口函数。没有 PARTITION BY,整个结果集就是一个大分区。

  • 常见用法:PARTITION BY user_id(按用户算累计消费)、PARTITION BY product_category(按品类算排名)
  • 注意:PARTITION BY 的列不必出现在 select 列表中,也不影响原始数据展示
  • 可以多列组合:PARTITION BY region, year,适合多维分析场景

ORDER BY 决定“计算顺序”,对多数函数是必需的

它不仅排序,更直接影响窗口函数的行为逻辑。尤其在涉及“累计”“偏移”“排名”类函数时,缺了 ORDER BY 会报错或结果异常。

  • 例如:ROW_NUMBER() OVER(PARTITION BY dept ORDER BY salary DESC) 才能给每个部门内员工按薪资从高到低编号
  • 再如:SUM(sales) OVER(ORDER BY date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) 实现严格按时间顺序的滚动累计
  • ORDER BY 后可加 ASC/DESC,默认 ASC;NULL 值默认排在最前(不同数据库略有差异)

ROWS 和 RANGE 进一步限定“物理范围”或“值范围”

当需要控制参与计算的具体行集合时(比如只看最近3条记录),就要用 ROWS 或 RANGE 框架。它们必须配合 ORDER BY 使用。

  • ROWS BETWEEN:按实际行数界定,精确可靠。例如 ROWS BETWEEN 2 PRECEDING AND CURRENT ROW 表示当前行及前两行
  • RANGE BETWEEN:按排序列的值来界定,适合处理存在重复值的场景。例如 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW 在薪资相同时会把同薪者全纳入窗口
  • 常见起点终点:UNBOUNDED PRECEDING(分区第一行)、CURRENT ROW(当前行)、UNBOUNDED FOLLOwinG(分区最后一行)
text=ZqhQzanResources