lsof +L1 显示大量 (deleted) 文件占用空间的批量安全释放方法

6次阅读

(deleted)文件仍占磁盘空间是因为进程持有其文件描述符,内核延迟回收数据块;需通过lsof定位PID,结合reload、HUP或重启释放,不可暴力删除或写fd。

lsof +L1 显示大量 (deleted) 文件占用空间的批量安全释放方法

为什么 lsof +L1 显示的 (deleted) 文件还在占磁盘空间

因为进程仍持有该文件的打开文件描述符(fd),内核不会真正回收其数据块,即使文件已被 rm 删除。只要进程不关闭 fd 或退出,空间就一直被占用。

常见于日志轮转不规范、程序未正确处理 SIGHUP、或长时间运行的守护进程(如 java 应用、nginx、rsyslog)。

  • 注意:(deleted)lsof 的显示标记,不代表文件路径还存在;实际路径在 lsof 输出的 NAME 列中可能已不可访问
  • 不能靠 rm -f 再删一次——文件已不存在,操作无效
  • 直接 kill 进程最彻底,但可能影响服务可用性,需谨慎评估

如何安全定位并释放指定进程的 (deleted) 文件句柄

核心思路:找到对应进程 PID → 检查其 /proc/PID/fd/ 下的符号链接 → 确认是否指向 (deleted) → 选择性关闭 fd(需进程配合)或重启进程。

不推荐暴力写入 /proc/PID/fd/FD_NUM 来“清空”,多数情况会失败或引发进程异常。

  • 先用 lsof +L1 -n -P | head -20 快速查看占用最大的几条记录,关注 PIDCOMMAND
  • 确认目标进程是否支持优雅重启:比如 nginx -s reloadsystemctl reload rsyslog、Java 应用若支持 JMX 或 actuator endpoint 可触发日志重开
  • 对无 reload 支持的进程,优先尝试 kill -HUP PID(部分程序会重新打开日志文件);若不确定行为,先在测试环境验证

批量释放多个进程的 deleted 文件(脚本化但带保护机制)

避免无差别 kill,应加入白名单校验、进程存活判断和最小作用域控制。

#!/bin/bash # safe-delete-fd-clean.sh whitelist="nginx|rsyslog|java|prometheus" lsof +L1 -F p 2>/dev/null | grep '^p' | cut -d'p' -f2 | sort -u | while read pid; do   if [ -z "$pid" ] || ! kill -0 "$pid" 2>/dev/null; then continue; fi   cmd=$(ps -o comm= -p "$pid" 2>/dev/null | tr -d ' ')   if [[ "$cmd" =~ $whitelist ]]; then     echo "INFO: found candidate $cmd (PID $pid), checking log reopen support..."     # 尝试 HUP,仅对已知可安全重开日志的命令执行     case "$cmd" in       nginx)   nginx -s reload 2>/dev/null && echo "OK: nginx reloaded" ;;       rsyslog) systemctl reload rsyslog 2>/dev/null && echo "OK: rsyslog reloaded" ;;       java)    kill -HUP "$pid" 2>/dev/null && echo "OK: java HUP sent" ;;       *)       echo "SKIP: $cmd not in auto-handled list, manual check needed" ;;     esac   else     echo "WARN: $cmd (PID $pid) not in whitelist, skipped"   fi done
  • 脚本只对白名单内的进程尝试 reload/HUP,其余跳过,防止误操作关键系统进程(如 systemddbus
  • lsof +L1 -F p 输出更紧凑,适合脚本解析;kill -0 避免对已退出 PID 做无效操作
  • 执行前务必手动检查 lsof +L1 输出,确认目标进程确实处于“可重启”状态(例如非正在处理关键事务)

释放后空间没立刻恢复?检查是否有其他引用或延迟回收

即使进程关闭了 fd,ext4/xfs 等文件系统在高负载或 journal 模式下可能存在短暂延迟;更常见的是还有别的进程在 hold 同一 inode

  • lsof -n -P | grep 'inode_number'(从 /proc/PID/fd/FD 的 link 中提取 inode)确认是否多进程共用
  • 检查挂载选项:mount | grep "$(df . | tail -1 | awk '{print $1}')" ,若含 noatimedata=ordered 属正常,但 data=journal 可能略微延长释放可见时间
  • 极端情况下,可尝试 echo 3 > /proc/sys/vm/drop_caches(仅清缓存,不影响数据),但通常没必要

真正难处理的是那些没有 reload 接口、又不能中断的长时进程——这时只能接受空间暂不释放,等它自然结束或下次维护窗口再滚动重启。

text=ZqhQzanResources