Linux btrfs scrub / balance 的定期维护计划与 IO 影响控制

1次阅读

scrub 不会卡死系统但会打满磁盘io，需用 ionice -c2 -n7 限速；balance 仅在 chunk 碎片、分布不均或设备故障时才需运行；scrub 与 balance 必须串行且先 scrub 后 balance。

不会直接卡死，但默认跑法会让磁盘 IO 持续打满，尤其在机械盘或混用负载的机器上，rsync、postgres 这类服务响应会明显变慢。

关键不是“做不做”，而是“怎么限速”。btrfs scrub 本身不支持 --throttle 或类似参数，得靠外部工具控速：

示例命令：

ionice -c2 -n7 btrfs scrub start -B /mnt/data

（-B 表示前台运行，方便配合 ionice）

不是定期跑就有益。btrfs balance 主要解决两类问题：碎片导致的写放大、chunk 分布不均引发的单盘过载。80% 的误操作源于把它当“磁盘整理”用。

真正需要 balance 的信号只有三个：

btrfs Filesystem usage /path 显示某块 device 的 used 接近 100%，但其他盘还有空闲
写入大量小文件后，btrfs filesystem df /path 中 Data 类型的 total 远大于 used（说明 chunk 碎片严重）
执行 btrfs device stats /path 发现某设备有持续 read_failures，balance 可强制迁移该设备上的 chunk（但先确认硬件没坏）

常用 filter 中，usage=85 和 profiles=dup 最实用；limit=100 这种纯数字限制容易误伤——它按 chunk 数计，不是按空间算。

绝对不要并发执行。两者都会读写 chunk tree 和 extent tree，同时跑大概率触发 transaction aborted 错误，日志里出现 aborting transaction 就是这个原因。

必须串行，且顺序固定：

中间任意一步失败，就停住。balance 半途被 kill 可能留下 inconsistent chunk tree，恢复起来比重做还麻烦。

直接写 0 2 * * 0 btrfs scrub start /mnt/data 是典型反模式：没检查挂载状态、没处理锁冲突、没防 overlap。

一个可用的最小化脚本逻辑：

IO 影响最隐蔽的点：balance 默认使用 metadata 和 system profile 的 full write，即使你只 filter data chunk，它仍会重写所有 metadata。这意味着 SSD 的写入放大和寿命消耗比看起来高得多。

发表于：运维

近一天内

复制链接

mysql如何防止SQL注入攻击_mysql权限安全方案

XML Catalog是什么如何用它来解析本地DTD/XSD文件