SQL max_replication_slots 的逻辑复制槽位上限与泄漏监控

2次阅读

max_replication_slots是静态参数,修改后必须重启实例才生效;未重启时建槽会报“all replication slots are in use”错误,可通过对比pg_settings中setting与boot_val确认是否生效。

SQL max_replication_slots 的逻辑复制槽位上限与泄漏监控

max_replication_slots 设定后为什么复制槽不生效

postgresqlmax_replication_slots 是个静态参数,改完必须重启实例才能加载。很多用户在线执行 ALTER SYSTEM SET max_replication_slots = 5 后立刻建槽,结果报错 Error: all replication slots are in use——其实根本没生效。

  • 确认是否重启:查 pg_settingsmax_replication_slotssetting 值和 boot_val 是否一致,不一致说明配置未载入
  • 动态参数如 max_connections 可 reload,但这个不是;postgresql.conf 修改后必须 pg_ctl restart 或系统级 systemctl restart postgresql
  • 注意:slot 名称区分大小写,且不能含空格或特殊字符,否则 CREATE_REPLICATION_SLOT 直接报语法错误

逻辑复制槽泄漏的典型现象和定位方法

泄漏本质是 slot 持有 WAL 不被回收,导致 pg_wal/ 目录持续膨胀,甚至撑爆磁盘。最直接信号是 pg_replication_slots 视图里 activef,但 restart_lsn 长期不动。

  • 检查滞留槽:select slot_name, plugin, active, restart_lsn, confirmed_flush_lsn FROM pg_replication_slots WHERE NOT active;
  • 对比 restart_lsn 和当前 pg_control_checkpoint().redo(可用 pg_controldata 命令看),差值超 1GB WAL 就该警惕
  • 常见泄漏场景:消费者进程崩溃未清理 slot、kafka Connect / Debezium 任务停用但没调 DROP_REPLICATION_SLOT、应用层重试逻辑误建同名 slot

pg_replication_slots.active = false 但 WAL 还在增长

PostgreSQL 不会自动清理 inactive slot 的 WAL,只要它存在,WAL 就得保留到 restart_lsn。哪怕 slot 已停用一周,只要没删,归档和流复制都会卡住。

  • 安全清理前先确认:该 slot 对应的下游是否真不再需要(比如旧同步任务已下线)
  • 删除命令必须在对应数据库连接中执行:SELECT pg_drop_replication_slot('slot_name');,不能跨库操作
  • 若删槽时报 ERROR: replication slot "xxx" is active for PID xxx,说明还有 backend 在用——查 pg_stat_replicationpg_stat_activity 找出 PID 并 kill
  • 注意:slot 删除后,WAL 清理不会立即发生,需等待下一个 checkpoint 完成

监控脚本里容易漏掉的关键字段

只盯 active 列会误判。真正反映风险的是 restart_lsnpg_current_wal_lsn() 的差值,以及 catalog_xmin 是否长期停滞(影响系统表垃圾回收)。

  • 推荐监控 SQL:SELECT slot_name, active, restart_lsn, pg_current_wal_lsn() - restart_lsn AS lsn_lag_bytes FROM pg_replication_slots;
  • lsn_lag_bytes 超过 2GB 建议告警;超过 10GB 必须人工介入
  • 不要依赖 pg_stat_replication,它只显示活跃连接,inactive slot 完全不出现
  • 备份脚本如果包含 pg_create_logical_replication_slot,务必配对 pg_drop_replication_slot,否则每次备份都新增一个泄漏点

事情说清了就结束。最麻烦的不是设上限,而是没人定期核对 pg_replication_slots 里那些 active = f 的条目——它们安静躺在那里,默默吃光你的磁盘空间。

text=ZqhQzanResources