Linux 灾备演练与恢复实战

7次阅读

灾备恢复需同步权限、路径、排除规则、设备校验、mysql配置及时间校准:rsync须用sudo并检查斜杠与exclude;dd前需lsblk/pvs/blockdev校验设备;mysql需更新bind-address与socket路径;chronyd -x平滑校时。

Linux 灾备演练与恢复实战

灾备恢复时 rsync 同步失败:权限、路径、排除规则全踩过一遍

灾备演练里最常卡在恢复环节,不是备份没做,而是 rsync 一跑就报错。常见现象是目标目录空空如也,或只同步了部分文件,rsync: failed to set times on "xxx": Operation not permitted 这类错误反复出现。

根本原因不是命令写错了,而是没区分清楚运行上下文:备份机上用 root 备份的归档,恢复到另一台机器时若用普通用户执行 rsync,连 --archive 都会失效——它依赖 chownchmod 权限,普通用户压根没这能力。

  • 恢复必须用 sudo rsync,且目标路径得是可写、可 chown 的目录(比如 /mnt/restore,别直接往 /usr/etc 里硬怼)
  • --exclude 规则在恢复端要重审:备份时排除了 /proc,但恢复时如果忘了加 --exclude='/proc'rsync 可能试图创建空目录甚至触发挂载点异常
  • 路径末尾斜杠决定语义:rsync -a /backup/ /mnt/restore/ 是“把里面内容放进去”,而 /backup(无斜杠)会把整个 backup 目录复制过去——灾备恢复通常要前者

dd 恢复磁盘镜像时设备节点识别不准

灾备镜像如果是整盘 dd if=/dev/sda of=backup.img 做的,恢复时不能想当然地 dd if=backup.img of=/dev/sdb 就完事。真实环境里,/dev/sdb 可能是 USB 盘、NVMe 设备或 LVM PV,dd 不校验设备大小,写爆了就真爆了。

更隐蔽的问题是:恢复前没 lsblk 确认目标设备是否处于未挂载、未被 LVM/MD 使用的状态,dd 写入过程中若内核还在读这个设备,轻则数据错乱,重则设备离线。

  • 恢复前必做三件事:lsblk -f 查挂载点、pvs/vgs 查 LVM 占用、cat /proc/mounts | grep sdb 确认无残留挂载
  • blockdev --getsize64 /dev/sdb 对比 stat -c "%s" backup.img,确保镜像大小 ≤ 目标设备容量,否则提前 abort
  • conv=noerror,sync 不解决根本问题,只是让 dd 忽略 I/O 错误继续跑——灾备恢复不允许“差不多”

MySQL 主从切换后应用连不上:不是密码错,是 bind-address 和 socket 路径没动

灾备演练里切 MySQL 主库,应用报 Can't connect to MySQL server,第一反应改密码、开远程访问,其实八成是配置没随角色迁移。

主库切走后,新主库的 my.cnfbind-address 还是 127.0.0.1,或者 socket 路径指向旧实例的 /var/lib/mysql.sock,应用用 socket 连就直接失败;用 TCP 连又因 bind 地址限制被拒。

  • 灾备恢复脚本里必须包含配置项更新:sed -i 's/bind-address = 127.0.0.1/bind-address = 0.0.0.0/' /etc/my.cnf,并确认 skip-networking 已注释
  • 检查 socket 路径是否和 mysql --socket= 参数一致,尤其当多实例共存时,ps aux | grep mysqld 看实际启动参数比看配置文件更可靠
  • 重启前先 mysqld --defaults-file=/etc/my.cnf --validate-config,避免配置语法错误导致服务起不来

恢复后时间不同步引发证书/日志/认证全链路失效

灾备机长期离线,系统时间可能比生产环境慢几小时甚至几天。恢复后不校准时间,后果比想象中严重:https 证书提示“Not valid yet”,chronyd 拒绝同步,systemd-journald 日志时间戳乱序,Kerberos 认证直接拒绝——这些都不是独立故障,是同一个根因。

ntpdate 强制同步看似快,但在生产环境已被弃用,且会跳变时间,对数据库事务、定时任务都构成风险。

  • 必须用 chronyd-x 模式平滑调整:chronyd -x -d -f /etc/chrony.conf,等几秒看到 System clock wrong by ... seconds 提示后再正式启用服务
  • 验证是否生效:chronyc trackingOffset 是否收敛到毫秒级,timedatectl status 确认 System clock synchronized: yes
  • 注意 NTP 服务器地址是否随网络环境变化:灾备网段可能没有访问外网 NTP 的权限,得提前配好内网时间源

灾备恢复不是“把东西拷过去就完了”,每个组件的时间、权限、路径、网络上下文都得重新对齐。最容易被忽略的是那些不报错但悄悄失效的部分——比如证书有效期、日志轮转策略、SElinux 上下文,它们不会拦住恢复流程,却会在上线后某个凌晨突然爆发。

text=ZqhQzanResources