SQL DISTINCT 去重操作原理与实践

1次阅读

select distinct 是对整行去重，作用于 select 后所有列组成的组合值；想单独取某列唯一值需单独查询；NULL 被视为相同值但组合中任一列不同即算不重复；其本质是查询末期的逻辑过滤，不修改原表；执行机制依数据量与数据库而定，可排序、哈希或索引扫描；order by 列必须出现在 select distinct 中；group by 在性能和扩展性上通常优于 distinct。

SELECT DISTINCT 是对整行去重，不是对单列

DISTINCT 作用的是 SELECT 后面所有列构成的“组合值”，只要任意一列不同，就算不重复。很多人写 SELECT DISTINCT a, b FROM t 却以为能分别拿到 a 的所有唯一值和 b 的所有唯一值——这是错的，它只返回 (a,b) 这个元组的唯一组合。

想单独取 a 的所有不同值？必须写成 SELECT DISTINCT a FROM t
想同时拿到 a 唯一值、b 唯一值、c 唯一值？不能靠一个 DISTINCT 实现，得拆成三个查询，或用 union 拼接（注意类型兼容）
NULL 被视为相同值：多行中若 a 列都是 NULL，DISTINCT 只保留一行；但 (NULL, 1) 和 (NULL, 2) 是不同组合，都会保留

去重不是删数据，而是执行时动态筛行

DISTINCT 不会修改原表，也不生成临时表（除非内存不够），它是在查询执行末期对结果集做的一次逻辑过滤。底层怎么筛，取决于数据库实际选择的机制：

小数据量、无索引、无哈希支持（如旧版 mysql 5.7）→ 默认走 排序去重：先 ORDER BY 所有 SELECT 列，再顺序扫描跳过相邻重复行；磁盘排序可能拖慢速度
大数据量、内存充足、支持哈希（postgresql ≥9.6 / SQL Server）→ 常选 哈希去重：建哈希表存已见 key，重复直接丢；快但吃内存，OOM 时可能降级为落盘哈希或回退排序
如果 DISTINCT 列上有唯一索引或前导覆盖索引（如查 user_id，而索引是 (status, user_id)），优化器可能直接索引扫描，天然跳过重复——这时连哈希/排序都省了

ORDER BY 和 DISTINCT 共用时，字段必须被包含

标准 SQL 要求：ORDER BY 的列必须出现在 SELECT DISTINCT 的列列表中，否则报错或行为不可靠（MySQL 5.7 兼容模式下可能允许，但 PostgreSQL/SQL Server 会直接拒绝）。

合法：SELECT DISTINCT dept FROM employees ORDER BY dept
非法：SELECT DISTINCT dept FROM employees ORDER BY hire_date（hire_date 没在 SELECT 列表里）
想按某列排序但又不想显示它？不行。要么加进 SELECT（哪怕只是冗余），要么改用子查询或窗口函数

大数据量下，DISTINCT 很可能比 GROUP BY 慢

单纯去重时，GROUP BY 和 DISTINCT 语义等价，但执行计划常更优——因为优化器对 GROUP BY 的路径探索更充分，尤其当涉及聚合倾向（哪怕没写聚合函数）或已有分组索引时。

推荐写法：SELECT dept FROM employees GROUP BY dept，而非 SELECT DISTINCT dept FROM employees
如果后续要加统计（如每个部门人数），GROUP BY 只需补 count(*)，DISTINCT 就得重写逻辑
注意：某些场景下 GROUP BY 会强制排序（如 MySQL 8.0 默认），若不需要有序结果，可加 ORDER BY NULL 显式关闭

真正难的不是写对语法，而是判断“这个去重到底是不是必须发生在 SQL 层”——比如前端展示需要去重，但原始数据本就来自多个 UNION 查询，重复是合并引入的，那前置去重或应用层 dedupe 可能更轻量。别让数据库替你承担不该担的逻辑。

发表于：数据库

近一天内

复制链接

如何添加普通索引_mysql index基础操作

CSS Grid 中的文本对齐与行高稳定性控制教程

Python游戏开发教程_Pygame基础实践

Go语言实现文件批量处理_Go文件操作项目示例

Linux cpuset cgroup 的 CPU 隔离与 NUMA 节点绑定生产实践

SQL DISTINCT 去重操作原理与实践

SELECT DISTINCT 是对整行去重，不是对单列

去重不是删数据，而是执行时动态筛行

ORDER BY 和 DISTINCT 共用时，字段必须被包含

大数据量下，DISTINCT 很可能比 GROUP BY 慢

欧易官网App最新版本链接欧易交易所安卓版v6.190.0安装包

css 想给表单第一个输入框添加样式怎么办_使用 :first-of-type 选择器设置

如何为动态添加的分类文本实现点击变色效果

vmstat 显示 bi/bo 极高但没有明显 IO 密集进程的缓存/匿名页问题

Go语言interface传值还是传指针_Golang接口底层实现机制

MAUI Essentials是什么 MAUI Essentials功能详解

Android animation scale pivot XML缩放动画中心点设置

PHP 中实现学生成绩降序排序的完整教程

composer怎么编写自定义插件_composer插件开发入门【高级】

如何正确处理 Turso 数据库中异步插入操作的返回值与日志输出问题