Linux Ceph 存储集群性能优化

1次阅读

osd_op_complaint_time调小反而写入更慢，因其是osd响应迟缓的观察窗口而非超时阈值，设太小会引发健康状态抖动、客户端频繁重试退避；默认30秒足够，ssd集群可慎调至15秒。

Linux Ceph 存储集群性能优化

为什么 `osd_op_complaint_time` 调小反而让写入更慢

因为这个参数不是“超时阈值”，而是 ceph 判定 OSD 是否“响应迟缓”的观察窗口。设得太小（比如 0.5），会导致健康检查频繁误报，触发 osd_nearfull 或 osd_full 状态抖动，进而让客户端反复重试、退避，实际吞吐反而下降。

实操建议：

默认值 30 秒在多数场景下足够；SSD 集群可谨慎调至 15，但必须同步确认 osd_max_backfills 和 osd_recovery_max_active 未成为瓶颈
调低前先用 ceph tell osd.<id> bench</id> 测单 OSD 持续写入能力，避免把配置问题误判为硬件问题
若看到大量 slow request 日志，优先查 dmesg | grep -i "nvme|io" 或磁盘队列深度（iostat -x 1 中的 avgqu-sz），而不是急着改这个参数

`rbd cache` 开启后延迟不降反升的典型原因

RBD 缓存本身不减少 I/O，只是把部分请求从同步变异步——但如果底层 OSD 存储池用了 EC（Erasure Coding），缓存会强制将小写合并成大块再编码，反而放大延迟，尤其对随机小 IO 场景。

实操建议：

仅对顺序大块写（如数据库 WAL、备份流）开启 rbd_cache = true；虚拟机盘镜像类负载建议关闭
必须配合 rbd_cache_max_dirty（推荐 268435456 即 256MB）和 rbd_cache_target_dirty（设为前者的 70%）使用，否则脏页积压导致 flush 风暴
EC 池禁用缓存：在 rbd map 时加 --no-rbd-cache，或在 ceph.conf 的 [client] 段显式写 rbd cache = false

PG 数量设高了，为什么 `ceph -s` 显示 HEALTH_WARN 且恢复卡住

PG 过多直接增加 OSD 的内存开销（每个 PG 约占用 1–2MB 内存）和 CPU 计算负担（CRUSH 计算、心跳消息处理）。当单 OSD PG 数超过 400，常见现象是 osd.<id> down</id> 反复震荡，pg stuck inactive 报警持续不消。

实操建议：

计算公式别只看总容量：用 ceph osd pool get <pool> pg_num</pool> 查当前值，再执行 ceph osd pool get <pool> size</pool> 看副本数，真实压力 = pg_num × size ÷ osd_count；目标值应 ≤ 200
扩容 OSD 后不要立刻增 PG：先等集群稳定（ceph -s 显示 HEALTH_OK 且 pgmap 中 degraded 为 0），再用 ceph osd pool set <pool> pg_num <new></new></pool> 分批调整
已超限的池，只能先建新池、rbd export/import 迁移数据，再删旧池——Ceph 不支持减 pg_num

为什么 `bluestore` 的 `bluefs_buffer_size` 改大没效果

这个参数只影响 BlueFS 元数据日志刷盘行为，和用户数据路径无关。它不控制 RocksDB WAL 缓存，也不影响对象写入缓冲区。盲目调大只会浪费内存，还可能因日志块过大拖慢 bluefs 自身的 GC 效率。

实操建议：

默认 4194304（4MB）适合绝大多数 NVMe/SSD；SATA SSD 可尝试 2097152（2MB），但需配合 bluestore_throttle_bytes 一起调优
真正影响写性能的是 bluestore_throttle_bytes（默认 1073741824，即 1GB）——它限制 BlueStore 异步提交队列总大小，过小会导致写阻塞，过大则挤占 OSD 内存
调参后必须验证：ceph daemon osd.<id> config show | grep bluefs</id> 确认生效，并用 ceph daemon osd.<id> perf dump | grep bluefs</id> 观察 bluefs_bytes_written 增速是否平稳

PG 分布不均、OSD 内存吃紧、BlueStore 缓冲区错配——这些点单独看都不难调，但它们常连锁反应。比如调高 PG 数引发 OSD 内存不足，又让人误以为是 bluefs_buffer_size 不够，结果越调越偏。

发表于：运维

近一天内

# ceph # linux # map # 对象 # 异步 # 性能优化 # 数据库

复制链接

mysql中选择合适的索引类型与查询优化

Python 中实现任意散点数据的双线性最小二乘拟合教程

pdf文件可以改成php吗_PDF文档修改后缀为php格式方法【技巧】

PHP如何获取文件夹路径_PHP获取当前文件夹路径详解【技巧】

C++如何解析复杂的YAML配置文件_C++使用yaml-cpp库读写教程【实例】

Linux Ceph 存储集群性能优化

为什么 `osd_op_complaint_time` 调小反而让写入更慢

`rbd cache` 开启后延迟不降反升的典型原因

PG 数量设高了，为什么 `ceph -s` 显示 HEALTH_WARN 且恢复卡住

为什么 `bluestore` 的 `bluefs_buffer_size` 改大没效果

Composer dump-autoload –apcu 使用APCu缓存类映射【高性能】

php连接达梦报端口不通咋办_php连达梦网络排查法【方案】

Composer怎么安装Pheanstalk库消息队列Beanstalkd客户端【实操】

Python Turtle 中实现颜色饱和度渐变的完整教程

ios怎样调用html5二维码生成_ios生成二维码html5法【步骤】

Python 使用 C 扩展提升性能的思路

Rust serde-xml-rs库如何自定义XML序列化和反序列化

C++如何使用std::bind绑定函数参数？（与lambda对比）

SQL parallel_setup_cost 的并行查询启动代价阈值调优

Linux Pod 调度策略优化实践

Linux Ceph 存储集群性能优化

为什么 osd_op_complaint_time 调小反而让写入更慢

rbd cache 开启后延迟不降反升的典型原因

PG 数量设高了，为什么 ceph -s 显示 HEALTH_WARN 且恢复卡住

为什么 bluestore 的 bluefs_buffer_size 改大没效果

为什么 `osd_op_complaint_time` 调小反而让写入更慢

`rbd cache` 开启后延迟不降反升的典型原因

PG 数量设高了，为什么 `ceph -s` 显示 HEALTH_WARN 且恢复卡住

为什么 `bluestore` 的 `bluefs_buffer_size` 改大没效果