如何解决主库丢失归档且未备份情况下的DG修复_全库重新Duplicate的场景判断

5次阅读

不能直接用——DUPLICATE TARGET database 默认依赖主库归档日志进行介质恢复,归档丢失则RECOVER阶段报ORA-19625等错而中断;若DG物理备库在线、实时应用开启且主库可MOUNT,方可改用备库为AUXILIARY源,通过image copy、手动重建控制文件并重配归档链路完成切换。

主库归档丢失但DG仍同步时,DUPLICATE 还能用吗?

不能直接用——duplicate target database 默认依赖主库的归档日志来完成介质恢复(media recovery),一旦归档缺失且无法补全,rman 会在 restore database 后卡在 recover database 阶段,报错类似:ora-19625: Error identifying file <archivelog_path>ora-01110: data file x: '<path>'。此时 rman 找不到所需归档,恢复中断。

关键判断点是:DG 物理备库是否还活着、是否开启实时应用(ALTER DATABASE RECOVER MANAGED STANDBY DATABASE using CURRENT LOGFILE)、且主库控制文件/数据文件未损坏。满足这三点,才可能绕过主库归档,用备库反向构建新主库。

  • 主库归档丢失 + 无 RMAN 备份 → 主库已丧失独立恢复能力,DUPLICATE 必须放弃“以主库为源”的路径
  • 物理备库在线且应用延迟 ≤ 几分钟 → 它就是当前最完整、最新的一致性副本
  • 主库实例还能启到 MOUNT 状态(哪怕只读)→ 可导出控制文件快照、获取 DBID、检查 SCN,否则连重建基础都困难

用备库做 DUPLICATE 源时,RMAN 连接方式和参数必须改

默认 DUPLICATE TARGET DATABASE 是连主库,现在得让 RMAN 把备库当“假主库”用。核心是:不连接原主库(它已不可靠),而是连接备库实例,并显式指定其为 AUXILIARY;同时用 FROM ACTIVE DATABASE 不可行(因主库归档断了),必须走磁盘映像拷贝(image copy)+ 控制文件重建路径。

  • 先在备库执行:ALTER DATABASE OPEN READ ONLY(确保可读),再 CREATE PFILE FROM SPFILE 导出参数文件供新主库使用
  • RMAN 连接命令改为:rman TARGET / AUXILIARY sys/password@standby_db(注意:这里 AUXILIARY 指的是原备库,不是目标新库)
  • DUPLICATE 命令必须加 NOFILENAMECHECKDB_FILE_NAME_CONVERT,否则 RMAN 会试图复用原路径,而新主库目录结构通常不同
  • 禁用归档日志应用:RECOVER MANAGED STANDBY DATABASE CANCEL,否则 RMAN 无法独占数据文件

DUPLICATE 过程中控制文件怎么处理?别信自动重建

很多人以为加 SPFILEPARAMETER_VALUE_CONVERT 就能自动生成控制文件,实际不行。备库的控制文件里记录的是“作为备库”的角色信息(比如 STANDBY_BECOME_PRIMARY_switchOVER 相关 flag),直接复制过去会导致新库启动时报 ORA-01103: database name '<old_name>' in control file is not '<new_name>' 或无法识别数据库角色。

  • 必须在备库上先执行:ALTER DATABASE BACKUP CONTROLFILE TO TRACE AS '/tmp/controlfile_trace.trc',然后手动编辑该 trace 文件,删掉所有 STANDBY 相关语句,把 CREATE CONTROLFILE REUSE 改成 CREATE CONTROLFILE SET,并更新数据库名、日志路径、字符集等
  • 新主库启动前,用这个编辑后的脚本重建控制文件(STARTUP NOMOUNT → 运行 sql),再用 DUPLICATEFROM ACTIVE DATABASE 路径失效,改用 FROM BACKUPSET 或直接 RESTORE DATAFILE 配合手工 recover
  • 如果备库已开启 forCE Logging,新主库也必须保持一致,否则后续再建新备库会因日志不全失败

做完 DUPLICATE 后,主备关系要重置,不是改个参数就完事

新主库起来后,原备库的数据文件其实仍是“旧主库时间点”的镜像,但控制文件和在线日志已被覆盖。此时若直接在新主库上开启归档、切日志,原备库不会自动跟上——它缺少从新主库第一个日志开始的完整归档流,ARCHIVE_LAG_TARGETLOG_ARCHIVE_CONFIG 全得重配。

  • 新主库上必须执行:ALTER DATABASE FORCE LOGGINGALTER DATABASE ARCHIVELOGALTER SYSTEM SWITCH LOGFILE 至少两次,生成可用归档
  • 原备库需先关闭,清空所有旧归档、删除 standby redo logs,再用新主库的 ALTER DATABASE CREATE STANDBY CONTROLFILE AS ... 重建控制文件
  • 网络配置上,LOG_ARCHIVE_DEST_2 要指向新主库,而新主库的 LOG_ARCHIVE_DEST_2 必须指向这个刚重置的备库,且 VALID_FOR=(ONLINE_LOGFILES,PRIMARY_ROLE) 等属性一个都不能错
  • 最容易漏的是密码文件同步:orapwd file=$oracle_HOME/dbs/orapw<db_name> password=<sys_pwd> format=12.2,否则备库连不上新主库的 SYS 用户,LGWR SYNC 会一直报 ORA-01017

整个过程里最耗时的不是拷贝数据,而是控制文件语义修正和归档链路重锚定;稍有偏差,新主库一开归档,备库就停在 MRP0 waiting for gap,查 V$ARCHIVE_GAP 会发现缺几百个日志——那说明你没真正切断旧链路,还在试图续接已丢失的归档序列。

text=ZqhQzanResources