SQL去重查询怎么实现_完整逻辑拆解助力系统化掌握【教学】

2次阅读

sql去重核心在于“选”而非“删”,需按场景分四步:一查重复(GROUP BY+HAVING);二去重展示(DISTINCT或ROW_NUMBER());三慎删数据(自关联或NOT IN);四源头防重(UNIQUE约束、幂等控制)。

SQL去重查询怎么实现_完整逻辑拆解助力系统化掌握【教学】

SQL去重查询的核心是识别并消除重复数据,关键不在于“删”,而在于“选”——用合适的方式从结果集中只保留一条代表记录。掌握它需要分清场景:是查重、去重展示,还是真正删除重复行?下面按实际使用逻辑一步步拆解。

一、查出哪些数据重复了(诊断阶段)

先确认重复依据:通常按业务主键或多个字段组合判断是否重复。比如用户表中手机号重复,或订单表中(用户ID+商品ID+下单时间)相同即视为重复。

GROUP BY + HAVING 找出重复组:

  • SELECT user_id, phone, COUNT(*) FROM users GROUP BY phone HAVING COUNT(*) > 1;
  • 这能列出所有重复的手机号及重复次数,是后续处理的前提。

二、查询时跳过重复,只取每组一条(去重展示)

这是最常见需求:比如列表页不希望同一个人出现多次,但又不能删数据。

SQL去重查询怎么实现_完整逻辑拆解助力系统化掌握【教学】

达芬奇

达芬奇——你的AI创作大师

SQL去重查询怎么实现_完整逻辑拆解助力系统化掌握【教学】 166

查看详情 SQL去重查询怎么实现_完整逻辑拆解助力系统化掌握【教学】

  • select DISTINCT phone, name FROM users; —— 简单字段去重,适用于整行完全一致的情况。
  • SELECT * FROM (SELECT *, ROW_NUMBER() OVER (PARTITION BY phone ORDER BY create_time DESC) rn FROM users) t WHERE rn = 1; —— 按手机号分组,每组取最新一条。这是精准可控去重展示的标准写法。
  • 注意:PARTITION BY 定义“重复组”,ORDER BY 决定保留哪条(如取最早/最新/某状态优先),rn = 1 即只留每组头一条。

三、真正删除重复数据(慎操作!)

删除前务必备份,且建议先用上一步的子查询验证要删哪些行。

  • mysql 8.0+ 支持直接用 ROW_NUMBER() 配合 delete
  • DELETE t1 FROM users t1 INNER JOIN users t2 WHERE t1.phone = t2.phone AND t1.id > t2.id; —— 基于自关联,保留 id 最小的那条,删掉其余。
  • 更通用安全的做法:先查出要保留的ID(如每组最小id),再删不在该集合里的行:
  • DELETE FROM users WHERE id NOT IN (SELECT MIN(id) FROM users GROUP BY phone);
  • ⚠️ 注意:NOT IN 遇到 NULL 会失效,生产环境建议用 LEFT JOIN + IS NULL 替代。

四、避免重复:从源头加固(长期策略)

查和删只是补救,建表时加约束才是根本。

  • 对唯一字段(如手机号、邮箱)添加 UNIQUE 约束唯一索引
  • 业务层插入前先 SELECT 校验,或用 INSERT IGNORE / ON DUPLICATE KEY UPDATE(MySQL);
  • 复杂唯一逻辑(如“同一用户每天只能提交一次”)靠应用层幂等控制或数据库函数索引(postgresql)+ 唯一约束配合。

基本上就这些。去重不是一道语法题,而是一套“识别→筛选→清理→预防”的闭环逻辑。理清目标(查?展?删?防?),再选对应方法,就不容易踩坑。

text=ZqhQzanResources