Linux 生产环境运维经验总结

4次阅读

Linux 生产环境运维经验总结

linux 生产环境运维不是靠背命令，而是靠对系统行为的理解、对风险的预判和对流程的敬畏。稳定压倒一切，变更必须可控，监控必须前置，日志必须可查。

服务稳定性：从启动到自愈

生产服务不能只靠systemctl start就完事。关键服务必须配置Restart=always、StartLimitIntervalSec和RestartSec，防止进程意外退出后长时间失联。同时用systemctl enable确保开机自启，但更要验证systemctl is-enabled和systemctl is-active的真实状态——有些服务依赖网络或挂载点，需配合WantedBy=multi-user.target或After=network-online.target调整启动顺序。

上线前在测试环境完整走一遍重启流程，观察服务恢复时间与依赖就绪顺序
禁用所有非必要ExecStartPre脚本，避免启动卡死在某个检查环节
用journalctl -u service-name -f实时跟踪启动日志，比ps aux | grep更可靠

磁盘与IO：别等No space left on device才行动

根分区爆满是生产事故高频原因，但真正棘手的是inodes耗尽——df -i必须和df -h一起看。/var/log/下旧日志、/tmp中残留临时文件、容器未清理的overlay层、rsync中断留下的.~临时文件，都可能悄悄吃光inodes。

对/var/log启用logrotate并配置maxsize和rotate，禁用copytruncate（有丢失日志风险）
用find /tmp -type f -mtime +7 -delete加cron定期清理，但先-print确认范围
排查IO瓶颈优先看iostat -x 1中的%util和await，而不是只盯top里的CPU

权限与安全：最小化不是口号

运维账号不用root，应用进程不跑root，ssh不用密码登录——这三条是底线。生产机禁用PermitRootLogin yes，改用普通用户+sudoers白名单；数据库、中间件配置文件权限设为640，属主为运行用户，属组为管理组；/etc/shadow必须是000，/etc/passwd保持644即可。

用visudo编辑sudoers，禁止写ALL=(ALL) NOPASSWD: ALL这种万能句式
敏感配置（如DB密码）从不硬编码进systemd unit文件，改用EnvironmentFile并限制该文件权限
定期执行rpm -Va（centos/RHEL）或dpkg –verify（debian/ubuntu）校验系统二进制完整性

变更与回滚：每次操作都是可逆的

没有“小修改”。哪怕只是改一行nginx配置，也要走完整流程：备份原文件（带时间戳）、用nginx -t验证语法、systemctl reload而非restart、5分钟内观察监控曲线和错误日志。线上紧急修复优先用patch或sed -i.bak，保留原始副本；批量更新用ansible –check –diff预演，确认无误再执行。

所有变更记录进内部CMDB或简单文本日志，包含操作人、时间、变更内容、验证方式
核心服务升级前，先在灰度节点部署，观察至少一个业务高峰周期
数据库结构变更必须配回滚sql，且在从库上先验证执行耗时与锁表现

发表于：运维

近三天内

复制链接

Linux 系统变更的风险控制方法

从XML映射到Protobuf格式怎么做？

LeetCode 长回文子串问题的内存优化与高效动态规划解法

LinuxDNS怎么配置_LinuxDNS配置方法及常见问题解答

如何安装mysql命令行工具_mysql环境工具配置

Linux 生产环境运维经验总结

服务稳定性：从启动到自愈

磁盘与IO：别等No space left on device才行动

权限与安全：最小化不是口号

变更与回滚：每次操作都是可逆的

CSS伪元素::before实现遮罩层_无需额外HTML标签的方案

如何在Golang中实现MVC模式_Golang MVC模式开发与设计实践

如何为 Vuetify 表格单元格值变更添加动画效果

mysql权限管理和加密有什么关系_mysql安全机制解析

如何阻止表单提交导致的页面跳转（Route 变更）

叙事行情何时结束_如何判断 Web3 趋势衰竭

WordPress 表单提交后跨页回填多选框状态的完整实现方案

Laravel 中使用 zip 方法实现多字段字符串数组的笛卡尔式展开

vscode一直有光标怎么回事

html代码怎么运行_浏览器查看网页效果实操【方法】