网络 namespace 大量残留导致 ip netns list 爆满的自动清理 cron

7次阅读

网络 Namespace 残留由容器异常退出等引起,需通过检查 /proc/*/ns/net 引用判断有效性,再用 ip netns delete 安全清理,并配置定时任务与白名单防护。

网络 namespace 大量残留导致 ip netns list 爆满的自动清理 cron

网络 namespace 残留通常由容器运行时异常退出、脚本中断或未正确销毁 netns 引起,长期积累会导致 ip netns list 输出大量无效条目,影响运维排查甚至某些网络工具行为。自动清理需区分“真实在用”和“已失效”的 netns,不能简单删除所有。

判断 netns 是否真正残留

linux 中 netns 本质是挂载点(/var/run/netns/xxx),其有效性取决于对应 inode 是否仍被某个进程持有。仅文件存在 ≠ namespace 活跃。可靠判断方式是检查该 netns 文件是否被任何进程的 ns/net 目录引用:

  • 对每个 /var/run/netns/* 文件,执行 find /proc/[0-9]*/ns/net -samefile /var/run/netns/xxx 2>/dev/NULL | head -n1
  • 若无输出,说明无进程引用,可安全清理
  • 注意:部分系统用 bind mount 创建 netns,需同时检查 /run/netns//var/run/netns/

安全清理脚本核心逻辑

以下为生产可用的清理片段(保存为 /usr/local/bin/clean-stale-netns.sh):

#!/bin/bash NETNS_DIR="/var/run/netns" [ -d "$NETNS_DIR" ] || NETNS_DIR="/run/netns" 

for ns in "$NETNS_DIR"/*; do [ -f "$ns" ] || continue nsname=$(basename "$ns")

跳过 systemd-resolved 等受管 netns(可按需扩展白名单)

[[ "$nsname" =~ ^(host|docker|k8s|cni-|kube-|calico) ]] && continue if ! find /proc/[0-9]*/ns/net -maxdepth 1 -samefile "$ns" 2>/dev/null | head -n1; then echo "Removing stale netns: $nsname" ip netns delete "$nsname" 2>/dev/null || rm -f "$ns" fi done

关键点:ip netns delete 优先调用(它会做二次校验并卸载),失败再直接删文件;白名单避免误删关键命名空间

配置定时任务(cron)

以 root 权限添加每日清理任务:

# crontab -e # 每天凌晨 3:15 清理一次 15 3 * * * /usr/local/bin/clean-stale-netns.sh >> /var/log/clean-netns.log 2>&1

建议加日志便于审计;首次运行前手动执行一次确认效果;如环境使用 containerd/CRI-O,可额外加入 runc list --format '{{.ID}}' | xargs -r -n1 nsenter -n -p -r -- /bin/true 2>/dev/null || echo "stale" 辅助交叉验证。

补充防护措施

单靠定时清理是兜底,更应从源头减少残留:

  • 容器编排平台(如 kubernetes)确保 CNI 插件配置了正确的 del 超时与重试
  • 自研脚本创建 netns 后,务必用 trap 'ip netns delete xxx' EXIT 保证异常退出时清理
  • 定期用 ls -la /var/run/netns/ 观察文件 inode 变化趋势,快速识别突发泄漏

不复杂但容易忽略。

text=ZqhQzanResources