sql去重有三类方法:DISTINCT用于获取不重复值列表,GROUP BY配合聚合函数实现分组统计去重,窗口函数(如ROW_NUMBER)则精准提取每组首条典型记录。

SQL去重查询的核心就两点:用 DISTINCT 去掉完全重复的整行,或用 GROUP BY 搭配聚合函数做有逻辑的“去重+统计”。别死记语法,先搞懂“为什么需要去重”和“哪类场景该用哪种方法”。
什么时候必须用 DISTINCT?
当你只想看“有哪些不同的值”,不关心数量、不涉及计算,也不需要保留其他字段时,DISTINCT 是最直接的选择。它作用于 select 后的所有列,只要组合值完全相同,就只留一条。
- 查所有不重复的城市:
SELECT DISTINCT city FROM users; - 查所有不重复的(部门, 职级)组合:
SELECT DISTINCT dept, level FROM employees; - 注意:DISTINCT 必须放在 SELECT 后第一个位置,不能写成
SELECT name, DISTINCT age—— 这是语法错误。
为什么 GROUP BY 才是真·去重主力?
DISTINCT 只能“原样照搬”字段,没法取最新记录、没法算平均薪资、没法保留某条具体数据。这时候就得靠 GROUP BY:它把相同字段值的多行归为一组,再配合 聚合函数(如 MAX、MIN、count、ANY_VALUE)输出每组一个代表值。
- 查每个城市的最新注册用户(按 id 最大判断最新):
SELECT city, MAX(id) AS latest_id FROM users GROUP BY city; - 查每个部门最高薪资员工的姓名(mysql 8.0+ 支持窗口函数更准,但 GROUP BY + ANY_VALUE 是常用兼容写法):
SELECT dept, ANY_VALUE(name), MAX(salary) FROM employees GROUP BY dept; - 关键点:SELECT 中所有非聚合字段,都必须出现在 GROUP BY 子句里,否则报错(SQL 标准严格模式下)。
误以为“去重”其实是“取唯一主键记录”?用窗口函数更靠谱
比如“每个邮箱只取最早注册的一条用户记录”,DISTINCT 和 GROUP BY 都难直接满足——前者拿不到 id,后者用 MIN(id) 再关联又啰嗦。这时推荐用 ROW_NUMBER():
SELECT * FROM ( SELECT *, ROW_NUMBER() OVER (PARTITION BY email ORDER BY create_time) AS rn FROM users ) t WHERE rn = 1;- PARTITION BY email 相当于“按邮箱分组”,ORDER BY create_time 确保最早那条排第一,rn = 1 就精准捞出每组首行。
- 这个思路比拼 GROUP BY + 子查询清晰得多,也避免了 ANY_VALUE 的不确定性(尤其在严格 SQL 模式下)。
基本上就这些。DISTINCT 是入门快刀,GROUP BY 是业务主力,窗口函数是进阶利器。别纠结“哪个高级”,看需求选工具——想清楚你要的是“值列表”“汇总结果”还是“某条典型记录”,路自然就出来了。