SQL去重查询怎么实现_DISTINCT使用场景与注意事项【技巧】

20次阅读

DISTINCT用于sql查询结果整行去重,非单字段去重;适用于查某字段所有不同值、多字段唯一组合等场景;不能保证保留哪条原始记录,需配合窗口函数或GROUP BY实现精准去重。

SQL去重查询怎么实现_DISTINCT使用场景与注意事项【技巧】

DISTINCT 是 SQL 中最常用的去重关键字,它能直接在查询结果中剔除重复行,让每条记录唯一。但它的行为有明确规则——是基于整行数据完全相同才去重,不是针对某一个字段单独“去重”。用错场景或忽略细节,容易导致结果不符合预期。

什么时候该用 DISTINCT

适合以下典型场景:

  • 查某个字段的所有不同取值,比如“查出所有销售地区”:select DISTINCT region FROM orders;
  • 查多个字段组合的唯一组合,比如“查出所有出现过的客户城市+省份搭配”:SELECT DISTINCT city, province FROM customers;
  • 配合聚合函数前先确认维度唯一性,例如统计每个部门人数前,先确认 department 字段无歧义(虽然此时更常用 GROUP BY)

DISTINCT 不等于 “按某列删重”

很多人误以为 SELECT DISTINCT name FROM users 能返回“每个名字只留一条完整用户记录”,这是错的。DISTINCT 只影响结果集结构,不决定哪条原始记录被保留。它不会自动关联 id、email 等其他字段。

如果需要“每个名字只取一条最新/最早/指定条件的记录”,必须用 窗口函数(如 ROW_NUMBER)GROUP BY + 聚合(如 MAX(id)) 配合子查询,不能只靠 DISTINCT。

SQL去重查询怎么实现_DISTINCT使用场景与注意事项【技巧】

Blogcast™

BlogcastTM是一个文本转语音的工具,允许用户创建播客、视频、电子学习课程的音频和音频书籍,而无需录制。

SQL去重查询怎么实现_DISTINCT使用场景与注意事项【技巧】 63

查看详情 SQL去重查询怎么实现_DISTINCT使用场景与注意事项【技巧】

性能和写法注意事项

DISTINCT 本质是排序或哈希去重,数据量大时可能明显拖慢查询:

  • 尽量避免对多字段、长文本字段(如 description)使用 DISTINCT
  • 在 WHERE 条件中提前过滤,减少参与去重的数据量
  • DISTINCT 不能直接用于部分字段加别名后又引用原字段,例如 SELECT DISTINCT name AS n, id FROM t 是合法的,但 SELECT DISTINCT n, id(n 是别名)会报错——别名在 DISTINCT 执行时尚未生成
  • NULL 值会被视为相同值:多行某字段为 NULL,DISTINCT 后只保留一个 NULL

替代方案比 DISTINCT 更精准的情况

当目标是“去重并保留某条代表记录”时,推荐以下方式:

  • ROW_NUMBER() OVER (PARTITION BY name ORDER BY create_time DESC) 标记每组内的序号,再取 rn = 1 的行
  • GROUP BY name 配合 MAX(id)MIN(create_time) 获取关联字段
  • 某些数据库支持 SELECT DISTINCT ON (name) *postgresql),可按 name 分组取首行,但非标准 SQL,移植性差

不复杂但容易忽略:DISTINCT 是结果级去重,不是逻辑级筛选。想控制“留哪一条”,得靠排序、分组或窗口函数来定义规则。

text=ZqhQzanResources