SQL HAVING 与 WHERE 的区别与应用

1次阅读

where在分组前过滤行,支持索引、不能用聚合函数;having在分组后过滤组,只能用于含group by的查询,且只能引用分组字段或聚合函数。

SQL HAVING 与 WHERE 的区别与应用

WHERE 和 HAVING 都能过滤数据,但执行时机完全不同

WHERE 在分组前筛行,HAVING 在分组后筛组。这不是语义差别,而是 sql 执行顺序决定的硬约束——HAVING 只能用在含 GROUP BY 的查询里,且只能引用分组字段或聚合函数;WHERE 则不能碰任何聚合结果。

常见错误现象:select user_id, count(*) FROM logs WHERE COUNT(*) > 10 GROUP BY user_id; 直接报错,因为 COUNT(*)WHERE 阶段还没算出来。

  • WHERE 过滤的是原始表的每一行,支持索引加速,性能通常更好
  • HAVING 过滤的是 GROUP BY 产出的临时结果集,无法利用原表索引,大数据量时容易变慢
  • 如果过滤条件不依赖聚合(比如 status = 'active'),一律放 WHERE,别图省事挪到 HAVING

什么时候必须用 HAVING 而不是 WHERE

只有当你要按聚合结果做判断时,HAVING 不可替代。比如“找出订单总额超 5000 的客户”,这个“总额”是 SUM(amount),只能在分组后存在。

使用场景示例:

SELECT customer_id, SUM(amount) AS total FROM orders GROUP BY customer_id HAVING SUM(amount) > 5000;
  • 错误写法:HAVING total > 5000 —— 别名 totalHAVING 阶段还不可见,得写 SUM(amount) 或用子查询
  • mysql 允许 HAVING 引用 SELECT 中的别名,但 postgresql、SQL Server 不支持,跨数据库时慎用
  • 如果还要对 HAVING 后的结果排序,ORDER BY 可以用别名(如 ORDER BY total DESC),这和 HAVING 的限制无关

WHERE + HAVING 混用的典型陷阱

很多人以为先 WHEREHAVING 就是“两层过滤”,但实际逻辑链是:WHERE → GROUP BY → HAVING。中间没有“先缩小数据再分组”的捷径——WHERE 确实能减少分组输入量,但 HAVING 的条件不会反向影响分组行为。

  • 错误预期:WHERE created_at > '2024-01-01' HAVING COUNT(*) > 100 并不能保证每个组都有 100 条新数据——它只保证该组在筛选后的数据里总数超 100
  • 如果想查“2024 年新增用户中,发帖数超 5 的人”,WHERE 必须先限定时间范围,否则 COUNT(*) 会包含历史记录
  • 聚合函数在 WHERE 中非法,在 HAVING 中合法,但像 AVG()MAX() 这类函数本身有 NULL 处理逻辑,HAVING AVG(score) IS NOT NULLHAVING AVG(score) > 0 行为可能不同

没有 GROUP BY 时 HAVING 的行为(MySQL 特例)

标准 SQL 规定:没 GROUP BY 就不能用 HAVING。但 MySQL 5.7+ 默认允许(只要 sql_mode 不含 ONLY_FULL_GROUP_BY),此时整张表被当作一个组处理。

这非常危险:

  • SELECT * FROM users HAVING id = 123; 看似像 WHERE,但它是先全表扫描、再聚合、再过滤,性能极差
  • PostgreSQL、sqlite、SQL Server 会直接报错:Error: column "users.id" must appear in the GROUP BY clause
  • 线上环境若迁移数据库,这类 MySQL “便利”写法会立刻崩,建议主动禁用:SET sql_mode = 'ONLY_FULL_GROUP_BY';

真正需要单行过滤,就老实用 WHEREHAVING 的存在意义,始终绑定在分组后的聚合判断上。

text=ZqhQzanResources