Linux 文件系统写入变慢的根因分析

5次阅读

磁盘I/O等待过高主要由存储延迟、ext4日志模式不当、文件系统碎片或inode耗尽、page cache回写策略不合理引起；需结合iostat、iotop、nvme smart-log等工具逐层排查。

Linux 文件系统写入变慢的根因分析

当 iowait 持续超过 20%，且 iotop -o 显示大量进程在 D（uninterruptible sleep）状态，基本可判定是底层存储响应延迟所致。常见于机械盘队列深度不足、SSD 长期写入后性能衰减、或 RAID 卡缓存电池失效后强制关闭 write-back 缓存。

实操建议：

用 iostat -x 1 观察 %util 和 await：若 await > 50ms 且 %util ≈ 100%，说明设备已达吞吐瓶颈
检查 RAID 卡缓存策略：MegaCli64 -AdpCachePolicy -Get -aALL，确认是否为 WriteBack；若显示 WriteThrough 且 BBU 不健康，性能会断崖式下降
对 NVMe 盘，运行 sudo nvme smart-log /dev/nvme0n1 查看 media_errors 和 warning_temp_time

默认 data=ordered 在大文件追加写或小文件高频创建时，journal 日志刷盘可能成为瓶颈；若误设为 data=journal，所有数据都先写 journal，再写 data block，I/O 放大近 2 倍。

实操建议：

ext4 在长期小文件写入后，即使磁盘空闲率 >30%，也可能因块组内 block 分散导致单次 write 需多次寻道；而 df -i 显示 inode 使用率 >95% 时，open() 和 mkdir() 会直接失败，间接拖慢上层写入流程（如日志轮转卡住）。

实操建议：

当 vm.dirty_ratio 设为默认 20%，且业务突发写入大量数据，内核会在内存中积累脏页直到达阈值，随后阻塞所有新 write 直到回写完成——此时 top 看不到 CPU 占用高，但进程 WRITE 状态堆积。

实操建议：

监控脏页压力：grep -i dirty /proc/vmstat 关注 nr_dirty 和 nr_writeback 是否持续高位
调低 vm.dirty_background_ratio（如设为 5）让后台回写更积极，避免前台阻塞
对数据库等应用，可绑定 vm.dirty_ratio 到 10–15，并配合 vm.dirty_expire_centisecs=500 加速过期脏页淘汰

真正难排查的是多层叠加：比如 RAID 卡缓存关闭 + ext4 data=journal + 脏页回写延迟，三者同时存在时，strace -e trace=write 看到的阻塞时间会远超单因素影响，必须逐层剥离验证。

发表于：web3.0

六天前

复制链接

C++如何使用std::thread传递参数_C++多线程异步调用函数教程【实战】

css样式重复引入会有影响吗_可能造成覆盖混乱和性能浪费