Linux 灾备演练与恢复实战

7次阅读

灾备恢复需同步权限、路径、排除规则、设备校验、mysql配置及时间校准：rsync须用sudo并检查斜杠与exclude；dd前需lsblk/pvs/blockdev校验设备；mysql需更新bind-address与socket路径；chronyd -x平滑校时。

Linux 灾备演练与恢复实战

灾备恢复时 `rsync` 同步失败：权限、路径、排除规则全踩过一遍

灾备演练里最常卡在恢复环节，不是备份没做，而是 rsync 一跑就报错。常见现象是目标目录空空如也，或只同步了部分文件，rsync: failed to set times on "xxx": Operation not permitted 这类错误反复出现。

根本原因不是命令写错了，而是没区分清楚运行上下文：备份机上用 root 备份的归档，恢复到另一台机器时若用普通用户执行 rsync，连 --archive 都会失效——它依赖 chown 和 chmod 权限，普通用户压根没这能力。

恢复必须用 sudo rsync，且目标路径得是可写、可 chown 的目录（比如 /mnt/restore，别直接往 /usr 或 /etc 里硬怼）
--exclude 规则在恢复端要重审：备份时排除了 /proc，但恢复时如果忘了加 --exclude='/proc'，rsync 可能试图创建空目录甚至触发挂载点异常
路径末尾斜杠决定语义：rsync -a /backup/ /mnt/restore/ 是“把里面内容放进去”，而 /backup（无斜杠）会把整个 backup 目录复制过去——灾备恢复通常要前者

用 `dd` 恢复磁盘镜像时设备节点识别不准

灾备镜像如果是整盘 dd if=/dev/sda of=backup.img 做的，恢复时不能想当然地 dd if=backup.img of=/dev/sdb 就完事。真实环境里，/dev/sdb 可能是 USB 盘、NVMe 设备或 LVM PV，dd 不校验设备大小，写爆了就真爆了。

更隐蔽的问题是：恢复前没 lsblk 确认目标设备是否处于未挂载、未被 LVM/MD 使用的状态，dd 写入过程中若内核还在读这个设备，轻则数据错乱，重则设备离线。

恢复前必做三件事：lsblk -f 查挂载点、pvs/vgs 查 LVM 占用、cat /proc/mounts | grep sdb 确认无残留挂载
用 blockdev --getsize64 /dev/sdb 对比 stat -c "%s" backup.img，确保镜像大小 ≤ 目标设备容量，否则提前 abort
加 conv=noerror,sync 不解决根本问题，只是让 dd 忽略 I/O 错误继续跑——灾备恢复不允许“差不多”

MySQL 主从切换后应用连不上：不是密码错，是 `bind-address` 和 socket 路径没动

灾备演练里切 MySQL 主库，应用报 Can't connect to MySQL server，第一反应改密码、开远程访问，其实八成是配置没随角色迁移。

主库切走后，新主库的 my.cnf 里 bind-address 还是 127.0.0.1，或者 socket 路径指向旧实例的 /var/lib/mysql.sock，应用用 socket 连就直接失败；用 TCP 连又因 bind 地址限制被拒。

灾备恢复脚本里必须包含配置项更新：sed -i 's/bind-address = 127.0.0.1/bind-address = 0.0.0.0/' /etc/my.cnf，并确认 skip-networking 已注释
检查 socket 路径是否和 mysql --socket= 参数一致，尤其当多实例共存时，ps aux | grep mysqld 看实际启动参数比看配置文件更可靠
重启前先 mysqld --defaults-file=/etc/my.cnf --validate-config，避免配置语法错误导致服务起不来

恢复后时间不同步引发证书/日志/认证全链路失效

灾备机长期离线，系统时间可能比生产环境慢几小时甚至几天。恢复后不校准时间，后果比想象中严重：https 证书提示“Not valid yet”，chronyd 拒绝同步，systemd-journald 日志时间戳乱序，Kerberos 认证直接拒绝——这些都不是独立故障，是同一个根因。

用 ntpdate 强制同步看似快，但在生产环境已被弃用，且会跳变时间，对数据库事务、定时任务都构成风险。

必须用 chronyd 的 -x 模式平滑调整：chronyd -x -d -f /etc/chrony.conf，等几秒看到 System clock wrong by ... seconds 提示后再正式启用服务
验证是否生效：chronyc tracking 看 Offset 是否收敛到毫秒级，timedatectl status 确认 System clock synchronized: yes
注意 NTP 服务器地址是否随网络环境变化：灾备网段可能没有访问外网 NTP 的权限，得提前配好内网时间源

灾备恢复不是“把东西拷过去就完了”，每个组件的时间、权限、路径、网络上下文都得重新对齐。最容易被忽略的是那些不报错但悄悄失效的部分——比如证书有效期、日志轮转策略、SElinux 上下文，它们不会拦住恢复流程，却会在上线后某个凌晨突然爆发。

发表于：后端开发

2026-02-24

# https # if # linux # mysql # var # 数据库

复制链接

mysql如何配置my.cnf_mysql配置文件设置说明

html5日期格式如何用ajax提交_html5日期ajax传输法【技巧】

PHP实现SSH自动化登录与命令执行：sshpass的使用指南

C++如何读取系统时区信息？（localtime与tzset跨平台处理）

如何在 Go 中动态获取 XML 元素的所有属性（无需预定义字段）

Linux 灾备演练与恢复实战

灾备恢复时 `rsync` 同步失败：权限、路径、排除规则全踩过一遍

用 `dd` 恢复磁盘镜像时设备节点识别不准

MySQL 主从切换后应用连不上：不是密码错，是 `bind-address` 和 socket 路径没动

恢复后时间不同步引发证书/日志/认证全链路失效

HTML5表单验证怎么禁用_重复提交不受校验影响教程【教程】

Nginx怎么配合PHP优化_高并发Web服务器配置指南【教程】

如何在 React 中正确实现子组件向父组件传递交互逻辑

Golang定时器Timer性能陷阱_底层堆结构与时间轮优化

如何优化Golang程序的TCP连接性能_Golang TCP连接性能调优方法

如何在Golang中处理模板渲染错误 Go语言html/template异常

mysql触发器能否调用外部存储过程_mysql调用方法解析

如何在Golang中监控Goroutine的数量 Go语言runtime.NumGoroutine

mysql如何使用ABS获取绝对值_mysql数学运算应用

C# 文件内容的数据质量验证 C#如何编写规则来校验文件内容是否符合规范

Linux 灾备演练与恢复实战

灾备恢复时 rsync 同步失败：权限、路径、排除规则全踩过一遍

用 dd 恢复磁盘镜像时设备节点识别不准

MySQL 主从切换后应用连不上：不是密码错，是 bind-address 和 socket 路径没动

恢复后时间不同步引发证书/日志/认证全链路失效

灾备恢复时 `rsync` 同步失败：权限、路径、排除规则全踩过一遍

用 `dd` 恢复磁盘镜像时设备节点识别不准

MySQL 主从切换后应用连不上：不是密码错，是 `bind-address` 和 socket 路径没动