如何处理重复数据_mysql唯一约束实战

15次阅读

mysql处理重复数据应优先使用唯一约束预防,建表或ALTER添加,支持单列和联合唯一;插入时可用INSERT IGNORE、REPLACE intO或ON DUPLICATE KEY UPDATE;清理历史重复需先查后删,唯一约束自动创建唯一索引且允许多NULL

如何处理重复数据_mysql唯一约束实战

MySQL 中处理重复数据,核心是提前预防而非事后清理。唯一约束(UNIQUE Constraint)是最直接、最可靠的手段,它在数据库层面强制保证字段或字段组合的值不重复,避免脏数据入库。

唯一约束怎么加?

建表时添加最稳妥,语法清晰且一劳永逸:

CREATE table users (
  id INT PRIMARY KEY AUTO_INCREMENT,
  email VARCHAR(100) UNIQUE NOT NULL,
  username VARCHAR(50)
);

如果表已存在,用 ALTER 添加:

ALTER TABLE users ADD UNIQUE (email);

支持多列联合唯一,比如限制“用户名+平台”组合不重复:

ALTER TABLE accounts ADD UNIQUE (username, platform);

遇到重复插入怎么办?

加了唯一约束后,INSERT 时若违反规则,MySQL 会直接报错(错误码 1062)。实际开发中常需优雅处理,而不是让程序崩掉:

  • 用 INSERT IGNORE:重复时静默跳过,不报错也不插入,适合“有就不管,没有才加”的场景
  • 用 REPLACE INTO:本质是先删后插,会触发 delete 和 INSERT 的钩子,慎用(可能丢失自增ID、影响外键关联)
  • 用 INSERT … ON DUPLICATE KEY UPDATE:推荐方式,冲突时执行更新逻辑,例如更新登录时间或计数器

示例:

INSERT INTO users (email, username) VALUES (‘a@b.com’, ‘alice’)
ON DUPLICATE KEY UPDATE username = VALUES(username), updated_at = NOW();

已有重复数据怎么清理?

加约束前必须清掉历史重复项,否则 ALTER 会失败。常用思路是保留一条,删掉其余:

比如按 email 去重,只留 id 最小的记录:

DELETE t1 FROM users t1
INNER JOIN users t2
WHERE t1.email = t2.email AND t1.id > t2.id;

操作前务必备份,建议先用 select 验证要删哪些行:

SELECT email, COUNT(*) c FROM users GROUP BY email HAVING c > 1;

唯一约束和主键、索引的关系

唯一约束本质会自动创建一个唯一索引,所以它既保证业务逻辑,也提升查询效率(尤其用于 WHERE email = ? 场景)。但注意:

  • 一个表可以有多个唯一约束,但只能有一个主键
  • 唯一约束允许 NULL(每列允许多个 NULL),而主键不允许 NULL
  • 如果字段经常用于等值查询且需去重,优先设为 UNIQUE;如果还承担主标识作用,就设为主键
text=ZqhQzanResources