sql去重查询应据需求选DISTINCT或GROUP BY:仅需唯一值用DISTINCT;需统计聚合或保留代表记录则用GROUP BY或窗口函数;delete用于删数据而非查询。

SQL去重查询核心靠 DISTINCT 和 GROUP BY,选哪个取决于你要保留什么信息——只要唯一值就用 DISTINCT;要统计、聚合或保留某条“代表记录”就得用 GROUP BY(配合聚合函数或窗口函数)。别硬套 DELETE 去重,那是改数据,不是查数据。
一、基础去重:用 DISTINCT 拿唯一组合
DISTINCT 作用在 select 后的字段列表上,对整行去重(即所有列出的字段值完全相同才算重复)。
- 单字段去重:
SELECT DISTINCT city FROM users;→ 返回所有不重复的城市名 - 多字段组合去重:
SELECT DISTINCT city, gender FROM users;→ 返回“城市+性别”的唯一搭配,比如 (北京, 男)、(上海, 女),但不会合并不同性别的同城市记录 - 注意:DISTINCT 必须放在 SELECT 后第一个位置,不能写成
SELECT name, DISTINCT age—— 语法错误
二、带统计/聚合的去重:用 GROUP BY 分组后汇总
当你不仅要去重,还要知道“每个唯一值出现了几次”“平均年龄多少”“最新注册时间是哪天”,就必须用 GROUP BY。
- 统计每城市用户数:
SELECT city, count(*) AS cnt FROM users GROUP BY city; - 查每城市的最大年龄和最早注册时间:
SELECT city, MAX(age), MIN(reg_time) FROM users GROUP BY city; - 关键点:SELECT 中所有非聚合字段(如 city)都必须出现在 GROUP BY 子句里;否则报错(mysql 5.7+ 严格模式下)
三、高级去重:按条件保留“一条代表记录”
比如“每个邮箱只取最新的一条用户记录”,DISTINCT 和 GROUP BY 都做不到(它们不保留原始行),得靠窗口函数或关联子查询。
- 推荐用 ROW_NUMBER():
SELECT * FROM (SELECT *, ROW_NUMBER() OVER (PARTITION BY email ORDER BY reg_time DESC) rn FROM users) t WHERE rn = 1;→ 按 email 分组,按注册时间倒序编号,取每组第 1 条 - 兼容老版本 MySQL(SELECT u1.* FROM users u1 LEFT JOIN users u2 ON u1.email = u2.email AND u1.reg_time → 找不到“时间更晚的同邮箱记录”的那条,就是最新的
- 注意:这种不是“去重”,而是“去重 + 取样”,结果仍是完整行,不是压缩后的字段组合
四、常见误区提醒
别混淆“去重查询”和“删重数据”。以下操作是修改表,不是查:
-
DELETE FROM users WHERE id NOT IN (SELECT MIN(id) FROM users GROUP BY email);—— 这是删数据,有风险,执行前务必备份 - DISTINCT 不改变原表,也不排序,如需排序得显式加 ORDER BY
- NULL 值在 DISTINCT 和 GROUP BY 中被视为相同值(即多个 NULL 会被当成一条)
基本上就这些。根据你的目标选工具:纯看有哪些唯一值 → DISTINCT;要算总数均值 → GROUP BY;要挑最新/最老/评分最高的一条 → 窗口函数或关联查询。不复杂但容易忽略细节。