sqlalchemy 如何写“批量插入忽略重复键”并返回插入数量

9次阅读

mysql用INSERT IGNORE跳过唯一冲突行并返回实际插入数;postgresql用ON CONFLICT DO NOTHING,需指定index_elements;跨库兼容可先查后插但非原子操作。

sqlalchemy 如何写“批量插入忽略重复键”并返回插入数量

MySQL 中用 insert_ignore 实现批量去重插入

MySQL 原生支持 INSERT IGNORE,SQLAlchemy 通过 Insert 构造配合 prefix_with("IGNORE") 可直接映射。关键点是:它跳过违反唯一约束(如主键、UNIQUE 索引)的行,不报错,且能拿到实际插入行数。

实操建议:

  • 必须确保目标表已定义主键或唯一索引,否则 IGNORE 不生效
  • 使用 session.execute() 而非 session.add_all(),后者无法触发 IGNORE 行为
  • 插入后调用 result.rowcount 获取真正插入的记录数(不是“尝试插入”的数量)
from sqlalchemy import insert 

stmt = insert(MyModel).prefix_with("IGNORE") result = session.execute(stmt, [{"id": 1, "name": "a"}, {"id": 2, "name": "b"}, {"id": 1, "name": "c"}]) print(result.rowcount) # 输出:2(id=1 的第二条被忽略) session.commit()

PostgreSQL 中用 ON CONFLICT DO NOTHING 替代

PostgreSQL 没有 IGNORE,对应的是 ON CONFLICT 子句。SQLAlchemy 2.0+ 原生支持 on_conflict_do_nothing,需指定冲突目标(通常是主键或唯一索引字段)。

常见错误现象:

  • 漏写 index_elements,导致 SQL 报错 there is no unique or exclusion constraint matching the ON CONFLICT specification
  • 用错字段名(比如写了列名而非 python 属性名),实际生成 SQL 时出错
  • 在 SQLAlchemy 1.4 中强行用 2.0 语法,会抛 AttributeError
from sqlalchemy.dialects.postgresql import insert 

stmt = insert(MyModel).on_conflict_do_nothing(index_elements=["id"]) result = session.execute(stmt, [{"id": 1, "name": "a"}, {"id": 2, "name": "b"}, {"id": 1, "name": "c"}]) print(result.rowcount) # 输出:2 session.commit()

数据库兼容写法:先查后插(低并发适用)

如果必须兼容多种数据库,或业务要求严格控制“哪些被跳过”,可手动做存在性检查。但注意:这不是原子操作,高并发下仍可能重复插入。

使用场景:

  • 数据量小(
  • 需要精确知道每条记录是否新增/跳过
  • 目标库不支持 IGNOREON CONFLICT(如某些 SQLite 版本)

性能影响:N 条数据 → 至少 N 次查询 + 最多 N 次插入,远慢于原生批量忽略。

ids_to_insert = [1, 2, 3] existing_ids = set(session.scalars(select(MyModel.id).where(MyModel.id.in_(ids_to_insert))).all()) new_records = [MyModel(id=i, name=f"item_{i}") for i in ids_to_insert if i not in existing_ids] session.add_all(new_records) session.flush() print(len(new_records))  # 插入数量

返回插入数量时最容易忽略的细节

rowcount 在不同驱动和模式下行为不一致:

  • SQLite 的 pysqlite 驱动在 executemany 后可能返回 -1,必须用单条 execute + 手动构造多值 INSERT
  • MySQL 的 pymysqlmysqldb 通常返回正确值,但开启 autocommit=False 时需 commit() 后才稳定
  • PostgreSQL 的 psycopg2ON CONFLICT 下返回准确值,但若用了 RETURNING 子句,rowcount 会失效,得用 result.fetchall() 数长度

复杂点在于:没有一个写法能在所有数据库、所有驱动、所有 SQLAlchemy 版本上 100% 返回可靠数字。最稳妥的做法是——明确你的目标数据库和驱动,然后选对应方案,别强求“一次写完到处跑”。

text=ZqhQzanResources