如何修改ASM磁盘组的冗余级别_Normal Redundancy与External对比

2次阅读

修改ASM磁盘组冗余级别前必须停用数据库,因冗余级别创建后不可在线修改,唯一方法是重建磁盘组:导出数据→删除原磁盘组→新建指定冗余级别→导入数据。

修改ASM磁盘组冗余级别前必须停用数据库吗?

不能在线改。asm磁盘组的冗余级别(redundancy)是创建时确定的元数据属性,创建后不可直接修改——alter diskgroup ... set Attribute 'redundancy' = ... 会报错 ora-15032: not all alterations performedora-15242: could not set attribute

真实场景中,想把 EXTERNAL REDUNDANCY 升级为 NORMAL REDUNDANCY,或反过来降级,唯一可行路径是重建:导出数据 → 删除原磁盘组 → 新建指定冗余级别的磁盘组 → 导入数据。

  • 如果磁盘组里只有 ocr/Voting File(RAC 环境),可用 ocrconfig -repair + crsctl replace votedisk 迁移,但仍是“先加新、后删旧”,非原地修改
  • 数据文件在 EXTERNAL 磁盘组上,且底层存储已做 RAID 1/10?别指望 ASM 冗余来兜底——EXTERNAL 模式下 ASM 完全不镜像,故障域全靠外部保障
  • NORMAL 要求至少 3 块磁盘(或 2 块 + failure group 配置),少于这个数新建就会失败,不是改完才报错

EXTERNAL vs NORMAL:选错冗余级别的实际代价是什么?

不是“功能差异”,而是“容错能力断层”。EXTERNAL REDUNDANCY 下,一块磁盘故障 = 整个磁盘组 DISMOUNTNORMAL REDUNDANCY 下,单块磁盘或单个 failure group 故障,磁盘组仍可读写(自动启用镜像副本)。

代价体现在两方面:

  • 空间开销:NORMAL 至少 2 倍物理空间(每份数据存两份),EXTERNAL 是 1:1。但别只看数字——如果底层是单盘或 JBOD,EXTERNAL 的“省空间”本质是裸奔
  • IO 路径:NORMAL 写操作需落盘两个 failure group,跨网络或跨机架时写延迟略高;读可从任一副本取,反而可能提升并发读吞吐
  • RMAN 备份到 EXTERNAL 磁盘组?没问题。但若该磁盘组同时放了生产数据文件,一次磁盘故障就可能让 RMAN 备份集和线上数据一起丢

重建磁盘组时 failure group 怎么配才不翻车?

failure group 是 NORMAL(及 HIGH)冗余生效的前提。没显式定义,ASM 默认每个磁盘一个 failure group——结果就是“镜像存同一块盘上”,完全失去冗余意义。

实操关键点:

  • 物理隔离优先:不同 failure group 必须对应不同物理故障域,比如不同 RAID 控制器、不同服务器、不同机柜。用 PATHNAME 命名时,确保名字能反映拓扑,别用 ASMDISK01 这种无意义编号
  • 数量要对得上:NORMAL 至少需要 2 个 failure group(推荐 3+),且每个 group 内磁盘数 ≥ 1;新建时用 CREATE DISKGROUP ... NORMAL REDUNDANCY FAILGROUP fg1 DISK '...' FAILGROUP fg2 DISK '...'
  • 加盘时漏写 FAILGROUP?新盘会被塞进默认 group,导致副本分布失衡。查现状用 select NAME, FAILGROUP FROM V$ASM_DISK

从 EXTERNAL 升级到 NORMAL 后,为什么 v$asm_alias 里文件路径没变?

路径不变是对的,因为 ASM 文件路径(如 +DG1/ORCL/DATAFILE/system.256.12345)是逻辑标识,和冗余级别无关。真正变化的是底层 extent 分布:原来每个 AU 只存一份,现在每个 AU 在两个 failure group 各存一份。

验证是否生效,别看路径,看这些:

  • V$ASM_DISKGROUP.REDUNDANCY:值必须是 NORMAL
  • V$ASM_FILE.TYPE:关键文件类型(如 DATAFILE, ONLINELOG)的 STRIPED 列应为 COARSEFINEREDUNDANCY 列应为 MIRROR
  • 手动模拟故障(测试环境!):ALTER DISKGROUP dg1 DROP DISK 'ASMDISK01',观察是否自动 rebalance 且磁盘组持续 online

最易被忽略的一点:升级后不做 ALTER SYSTEM CHECK DATAFILES,某些隐式坏块可能拖到下次 checkpoint 才暴露——冗余改了,校验逻辑没自动增强,得主动触发一次全量检查。

text=ZqhQzanResources