SQL 如何检测重复数据？

7次阅读

最直接找重复行的方法是GROUP BY+HAVING：按疑似重复字段分组，用HAVING COUNT(*)>1筛选重复组；若需列出所有重复行，可用ROW_NUMBER()窗口函数标记并过滤rn>1的记录。

SQL 如何检测重复数据？

最直接的办法是把可能重复的字段组合起来分组，再统计每组出现次数。只要数量大于 1，就是重复数据。

GROUP BY 后面跟的是你怀疑会重复的列，比如 email、user_id 或多个字段组合（如 first_name, last_name）
HAVING COUNT(*) > 1 是关键：它在分组后过滤，只保留重复组；WHERE 不能用在这里，因为它在分组前执行
如果想看具体哪些行重复，可以再用子查询或 JOIN 关联原表，否则 GROUP BY 只返回每组一条汇总结果

示例：查出所有重复的邮箱

SELECT email, COUNT(*) AS cnt FROM users GROUP BY email HAVING COUNT(*) > 1;

当你要完整列出所有重复行（包括区分“第几次出现”），ROW_NUMBER() 比 count() 更灵活。它按指定顺序给每行编号，相同值的行会得到不同序号，方便筛选或去重。

示例：标记并查出所有重复邮箱的后续记录

SELECT * FROM (   SELECT *,          ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS rn   FROM users ) t WHERE t.rn > 1;

如果你只是想校验单条记录（比如插入前检查），没必要扫全表。用 EXISTS 效率更高，尤其有索引时。

示例：检查邮箱 ‘test@example.com’ 是否已存在（且不是当前正在编辑的用户）

SELECT EXISTS (   SELECT 1 FROM users    WHERE email = 'test@example.com'      AND id != 123 ) AS is_duplicate;

靠 sql 查询找重复，本质是补救。真正防重复，得靠数据库层约束。不过加约束前必须先清理已有重复，否则会失败。

ALTER table users ADD CONSTRAINT uk_email UNIQUE (email) 是最常用方式；mysql 中叫 UNIQUE KEY，postgresql 和 SQL Server 类似
如果字段允许 NULL，多数数据库认为多个 NULL 不违反唯一约束——这点常被忽略，导致“看似加了约束，还是插进去了多条空邮箱”
复合唯一约束（如 (category_id, sort_order)）很常见，但要注意字段顺序和索引效率，尤其是高并发写入场景

加约束前务必先跑一遍 GROUP BY 查重，不然 ALTER TABLE 会直接报错中断。

发表于：数据库

2026-01-24

复制链接

Composer版本号波浪号和脱字符什么意思版本约束规则解析【分享】

如何在Kubernetes ConfigMap中存储和使用XML配置