SQL 如何实现“增量同步”避免全量同步的方案

10次阅读

用WHERE+时间戳字段做增量判断最常用，需建有效索引、用>而非>=防重复、统一时区、逻辑删除或CDC捕获删除、主表时间字段过滤、游标分页替代OFFSET、复合索引支持排序、预留缓冲窗口防时钟漂移。

用 `WHERE` + 时间戳字段做增量判断最常用

绝大多数业务表都有 updated_at 或 create_time 字段，这是实现增量同步最直接的依据。关键不是“有没有”，而是“索引是否有效”和“边界是否严谨”。

必须给时间字段建索引，否则每次查都全表扫描，增量变慢量
同步时要用 WHERE updated_at > '2024-06-01 00:00:00'，不能用 >=，否则重复拉取上一批最后一条（尤其高并发更新场景）
注意数据库时区：mysql 默认用系统时区，postgresql 可能默认 timestamp without time zone，跨服务同步前先对齐时钟或统一转为 UTC 存储

处理删除操作必须靠逻辑删除或变更日志

纯靠 updated_at 拉不到已删数据，所以物理删除无法被下游感知。常见解法只有两个，没有中间路线：

强制业务改用逻辑删除：加 is_deleted 字段 + deleted_at，同步 SQL 改为 WHERE updated_at > ? OR deleted_at > ?
启用数据库原生 CDC：MySQL 开 binlog（格式必须为 ROW），PostgreSQL 开 logical replication，SQL Server 开 Change Data Capture——这些能捕获 INSERT/UPDATE/DELETE 全事件
避免用触发器模拟日志：维护成本高、易丢事件、影响主库性能

`JOIN` 多表同步时，增量字段必须来自主表且可索引

比如同步订单+订单项，想按订单更新时间增量拉，就不能写 SELECT * FROM orders o JOIN order_items i ON o.id = i.order_id WHERE i.updated_at > ?——这会漏掉“订单更新但子项没动”的情况，且 i.updated_at 索引对主表无加速作用。

正确做法是只用主表（orders）的 updated_at 过滤，再关联子表；如需子表变更也触发同步，得单独建子表的增量任务
如果必须单次拉取完整订单（含最新子项），且子项有独立更新逻辑，建议在订单表加 latest_item_updated_at 冗余字段，由应用层或触发器维护
不要依赖 MAX(i.updated_at) 聚合后过滤：GROUP BY 会让索引失效，大数据量下变成慢查询

避免 `OFFSET` 分页导致的漏数据或重复

用 LIMIT 1000 OFFSET 10000 做分批同步，在并发写入场景下极易漏行或重复——因为 OFFSET 是基于当前快照计数，而新数据插入会挤占位置。

一律改用游标分页：WHERE updated_at > '2024-06-01 10:00:00' ORDER BY updated_at, id LIMIT 1000，每次用上一批最后一条的 (updated_at, id) 当下一批起点
复合游标字段必须有联合索引，例如 INDEX idx_updated_id (updated_at, id)，否则排序仍走 filesort
如果表没主键或主键不连续（比如 UUID），优先用自增 id 或数据库序列值做第二排序字段，别依赖 updated_at 单独排序（同一秒可能多条）

实际中最容易被忽略的是时钟漂移和事务可见性：上游事务提交时间和 binlog 写入时间有微小延迟，下游如果严格按时间戳拉，可能某条刚提交的记录被跳过。这时候得预留几秒缓冲窗口，或者用位点（binlog position / LSN）代替时间戳做精确锚点。

发表于：数据库

2026-01-28

复制链接

mysql如何停止主从复制

mysql如何备份和恢复二进制数据_mysql二进制数据备份恢复

SQL数据库历史版本膨胀_MVCC副作用

如何在mysql中恢复被误更新的数据

如何用 TRIGGER 实现审计日志（记录修改前后值）

SQL 如何实现“增量同步”避免全量同步的方案

用 `WHERE` + 时间戳字段做增量判断最常用

处理删除操作必须靠逻辑删除或变更日志

`JOIN` 多表同步时，增量字段必须来自主表且可索引

避免 `OFFSET` 分页导致的漏数据或重复

mysql安装完成后配置SSL加密连接的方法

python如何解码_字符串编解码与bytes.decode/str.encode方法解析

Composer怎么解决Incompatible version 版本不兼容最终方案【解决】

HTML5怎么标注重点手机能看吗_移动端浏览器支持highlight标签情况解答【说明】

Sublime怎么一键压缩JS代码 Sublime Minify插件使用教程【优化】

Linux 灰度发布过程中的风险控制

TypeScript 中 keyof 在嵌套映射类型中的误用与正确实践

Flask 中静态资源路径错误导致 post.html 样式未加载的解决方案

大量 TIME_WAIT 的 net.ipv4.tcp_max_tw_buckets 与 tcp_tw_reuse

如何实现点击表格中任意图片播放对应音频（动态ID绑定方案）

SQL 如何实现“增量同步”避免全量同步的方案

用 WHERE + 时间戳字段做增量判断最常用

处理删除操作必须靠逻辑删除或变更日志

JOIN 多表同步时，增量字段必须来自主表且可索引

避免 OFFSET 分页导致的漏数据或重复

用 `WHERE` + 时间戳字段做增量判断最常用

`JOIN` 多表同步时，增量字段必须来自主表且可索引

避免 `OFFSET` 分页导致的漏数据或重复