SQL max_replication_slots 的逻辑复制槽位上限与泄漏监控

2次阅读

max_replication_slots是静态参数，修改后必须重启实例才生效；未重启时建槽会报“all replication slots are in use”错误，可通过对比pg_settings中setting与boot_val确认是否生效。

max_replication_slots 设定后为什么复制槽不生效

postgresql 的 max_replication_slots 是个静态参数，改完必须重启实例才能加载。很多用户在线执行 ALTER SYSTEM SET max_replication_slots = 5 后立刻建槽，结果报错 Error: all replication slots are in use——其实根本没生效。

确认是否重启：查 pg_settings 中 max_replication_slots 的 setting 值和 boot_val 是否一致，不一致说明配置未载入
动态参数如 max_connections 可 reload，但这个不是；postgresql.conf 修改后必须 pg_ctl restart 或系统级 systemctl restart postgresql
注意：slot 名称区分大小写，且不能含空格或特殊字符，否则 CREATE_REPLICATION_SLOT 直接报语法错误

逻辑复制槽泄漏的典型现象和定位方法

泄漏本质是 slot 持有 WAL 不被回收，导致 pg_wal/ 目录持续膨胀，甚至撑爆磁盘。最直接信号是 pg_replication_slots 视图里 active 为 f，但 restart_lsn 长期不动。

检查滞留槽：select slot_name, plugin, active, restart_lsn, confirmed_flush_lsn FROM pg_replication_slots WHERE NOT active;
对比 restart_lsn 和当前 pg_control_checkpoint().redo（可用 pg_controldata 命令看），差值超 1GB WAL 就该警惕
常见泄漏场景：消费者进程崩溃未清理 slot、kafka Connect / Debezium 任务停用但没调 DROP_REPLICATION_SLOT、应用层重试逻辑误建同名 slot

pg_replication_slots.active = false 但 WAL 还在增长

PostgreSQL 不会自动清理 inactive slot 的 WAL，只要它存在，WAL 就得保留到 restart_lsn。哪怕 slot 已停用一周，只要没删，归档和流复制都会卡住。

安全清理前先确认：该 slot 对应的下游是否真不再需要（比如旧同步任务已下线）
删除命令必须在对应数据库连接中执行：SELECT pg_drop_replication_slot('slot_name');，不能跨库操作
若删槽时报 ERROR: replication slot "xxx" is active for PID xxx，说明还有 backend 在用——查 pg_stat_replication 或 pg_stat_activity 找出 PID 并 kill
注意：slot 删除后，WAL 清理不会立即发生，需等待下一个 checkpoint 完成

监控脚本里容易漏掉的关键字段

只盯 active 列会误判。真正反映风险的是 restart_lsn 和 pg_current_wal_lsn() 的差值，以及 catalog_xmin 是否长期停滞（影响系统表垃圾回收）。

推荐监控 SQL：SELECT slot_name, active, restart_lsn, pg_current_wal_lsn() - restart_lsn AS lsn_lag_bytes FROM pg_replication_slots;
lsn_lag_bytes 超过 2GB 建议告警；超过 10GB 必须人工介入
不要依赖 pg_stat_replication，它只显示活跃连接，inactive slot 完全不出现
备份脚本如果包含 pg_create_logical_replication_slot，务必配对 pg_drop_replication_slot，否则每次备份都新增一个泄漏点

事情说清了就结束。最麻烦的不是设上限，而是没人定期核对 pg_replication_slots 里那些 active = f 的条目——它们安静躺在那里，默默吃光你的磁盘空间。

发表于：web前端

近一天内

复制链接

css在项目中使用CSS Grid布局_实现复杂的网格布局方案

javascript如何操作日期_Date对象有哪些常用方法【教程】

在css中如何用hsla制作半透明渐变

什么是Map和Set_javascript中新的数据结构怎么用？

Linux 内核日志分析与故障排查

SQL max_replication_slots 的逻辑复制槽位上限与泄漏监控

max_replication_slots 设定后为什么复制槽不生效

逻辑复制槽泄漏的典型现象和定位方法

pg_replication_slots.active = false 但 WAL 还在增长

监控脚本里容易漏掉的关键字段

javascript表单如何验证_怎样确保用户输入正确【教程】

macOS 11.7 上 IDLE 启动失败：版本校验误判的解决方案

sublime怎么配置Arduino编译环境_Sublime编写单片机代码【进阶】

如何在单个 uint64 变量中安全、原子地存储并操作两个 32 位计数器

怎么用play控制左右声道_立体声调节技巧【方法】

Python 漏桶算法与令牌桶的业务适用性

Liquibase的changelog.xml文件怎么写数据库变更管理

Linux GlusterFS 分布式存储实战

mysql Server层和存储引擎层如何协作_SQL执行分工解析

mysql执行SQL查询时索引使用的优先级是什么_mysql优化规则