Linux 文件句柄耗尽问题解决方案

1次阅读

先用 lsof 和 /proc/pid/fd 定位高句柄进程,再用 ulimit -n 临时提升当前会话限制;永久修复需按 systemd 规则配置 limits,避免仅改 limits.conf 失效。

Linux 文件句柄耗尽问题解决方案

linux 进程报 Too many open files 怎么立刻查和临时修复

这不是配置没生效,而是当前进程或用户已突破系统级文件句柄限制。先别改配置,先定位谁在吃句柄。

常用排查命令:

  • lsof -nPi | awk '{print $2}' | sort | uniq -c | sort -nr | head -10 —— 查占用句柄最多的 PID
  • ls /proc/<code>PID/fd | wc -l —— 精确看某进程打开了多少个 fd(PID 替换为实际值)
  • cat /proc/<code>PID/limits | grep “Max open files” —— 看该进程实际生效的软硬限制

临时提升:对正在运行的进程无效;但可立刻提升当前 shell 的限制,供后续启动的子进程继承ulimit -n 65536。注意这仅对当前会话有效,且不能超过硬限制(ulimit -Hn 查)。

永久修改用户级 ulimit 需绕过 systemd 用户 session 限制

/etc/security/limits.conf 里加 username soft nofile 65536username hard nofile 65536 是常见做法,但对 systemd 启动的服务(如 systemctl --user start xxx)往往不生效 —— 因为 systemd 会忽略 limits.conf

正确做法是:

  • 对用户级服务:编辑 ~/.config/systemd/user.conf,取消注释并修改 DefaultLimitNOFILE=65536
  • 对系统级服务:在 service 文件中加 LimitNOFILE=65536(放在 [Service] 段)
  • 若用 sudo 启动,还需确认 sudoers 中未重置 limits(检查是否有 Defaults env_reset 且未显式保留 ulimit

改完记得重启对应 systemd 用户实例:systemctl --user daemon-reload && systemctl --user restart xxx

fs.file-max 是全局上限,不是 per-process 限制

fs.file-max 控制整个内核能分配的最大文件句柄数,和单个进程的 ulimit -n 是两层机制。它只在总量耗尽时触发(比如上万进程同时打开数千文件),日常遇到的 Too many open files 基本都是进程级 ulimit 卡住,而非这个值太小。

调整它需谨慎:

  • 临时改:sysctl -w fs.file-max=2097152
  • 永久改:写入 /etc/sysctl.conf,加一行 fs.file-max = 2097152
  • 注意:该值过高可能增加内核内存开销(每个 fd 约占 1KB 内核空间),一般 2M 足够支撑多数高并发服务

改完不用重启,但需确保 sysctl -p 生效,且 sysctl fs.file-max 输出与预期一致。

golang / Python 程序里没关 os.Fileio.Closer 是高频泄漏源

语言运行时不会自动回收未关闭的文件句柄,尤其在异常路径、循环体、defer 嵌套错误时极易漏关。现象是:进程 fd 数缓慢上涨,lsof -p <code>PID 里出现大量 REGpipe 类型句柄,且长时间不释放。

关键检查点:

  • Golang:所有 os.Openos.Createos.OpenFile 必须配对 Close();用 defer f.Close() 时,确保 f 不是 nil(否则 panic)
  • Python:优先用 with open(...);避免裸调 open() 后忘记 .close();检查 subprocess.Popen 是否设置了 close_fds=True(默认 True,但旧版本或显式设 False 会泄漏)
  • 通用技巧:在程序启动时打印 len(os.listdir('/proc/self/fd'))(Python)或 syscall.Getrlimit(syscall.RLIMIT_NOFILE)(Go),便于 baseline 对比

别依赖 GC —— 文件句柄不是内存,GC 不管它。

text=ZqhQzanResources