ip_local_port_range 用尽后 bind 失败的 ephemeral port 耗尽监控脚本

8次阅读

判断ip_local_port_range是否真用尽需先查范围(如32768 60999共约28232端口),再用ss统计活跃ephemeral端口去重数量,接近上限(如>27000)才表明可能耗尽;netstat易漏统计且不解析端口,ss更准确可靠。

ip_local_port_range 用尽后 bind 失败的 ephemeral port 耗尽监控脚本

如何判断 ip_local_port_range 真的用尽了

系统报 bind: Cannot assign requested addressconnect: Cannot assign requested address 时,不能直接断定是 ephemeral port 耗尽——更常见的是 TIME_WaiT 积、连接未复用、或 net.ipv4.ip_local_port_range 设置过窄。先确认当前范围:

cat /proc/sys/net/ipv4/ip_local_port_range

输出类似 32768 60999,共约 28232 个可用端口。再看已分配的 ephemeral 端口数量:

ss -tan | awk '$1 ~ /^(ESTAB|TIME-WAIT|FIN-WAIT-1|FIN-WAIT-2|SYN-SENT|SYN-RECV)$/ {print $4}' | awk -F':' '{print $2}' | sort -n | uniq -c | wc -l

这个数字接近上限(比如 >27000)才值得深入监控。

netstatss 统计结果为什么经常不一致

netstat 在高并发下会漏统计(尤其 TIME-WAIT),且默认不解析端口字段;ss 更轻量、内核态采样,推荐统一用它。关键区别在于:

  • ss -tan state time-wait | wc -l 只统计明确为 TIME-WAIT 的连接
  • ss -tan | awk '$1 ~ /^(ESTAB|TIME-WAIT|FIN-WAIT-1|FIN-WAIT-2|SYN-SENT|SYN-RECV)$/ {print $4}' 才覆盖所有可能占用 ephemeral port 的状态
  • 注意 $4 是本地地址+端口(如 10.0.1.5:42381),必须按 : 切分取第二段,否则会把 IP 当作端口误算

写一个轻量可靠的监控脚本

不用 python 或复杂依赖,纯 bash + 内置命令即可。核心逻辑:读取当前 port range → 提取所有活跃 ephemeral 端口 → 去重计数 → 对比阈值(建议设为 90%)。示例脚本:

#!/bin/bash RANGE_FILE="/proc/sys/net/ipv4/ip_local_port_range" MIN_PORT=$(awk '{print $1}' "$RANGE_FILE") MAX_PORT=$(awk '{print $2}' "$RANGE_FILE") TOTAL=$((MAX_PORT - MIN_PORT + 1)) USED=$(ss -tan | awk -v min="$MIN_PORT" -v max="$MAX_PORT" '   $1 ~ /^(ESTAB|TIME-WAIT|FIN-WAIT-1|FIN-WAIT-2|SYN-SENT|SYN-RECV)$/ && $4 ~ /:[0-9]+$/ {     split($4, a, ":"); port = a[2]     if (port >= min && port <= max) print port   }' | sort -u | wc -l 2>/dev/NULL) if [ "$USED" -gt $((TOTAL * 90 / 100)) ]; then   echo "ALERT: ephemeral port usage ${USED}/${TOTAL} ($(echo "scale=1; $USED*100/$TOTAL" | bc)%)"   exit 1 fi

注意:bc 仅用于百分比显示,非必需;sort -u 必须加,否则重复端口会被多算;2>/dev/null 屏蔽 ss 在无连接时的警告。

为什么只监控端口数还不够

即使 USED 远低于 TOTAL,仍可能 bind 失败——典型原因是大量连接卡在 TIME-WAITnet.ipv4.tcp_tw_reuse 关闭,导致端口无法快速回收。所以真实监控应同时检查:

  • sysctl net.ipv4.tcp_tw_reuse 是否为 1
  • ss -s | grep "TIME-WAIT" 的绝对数量(>5000 就需关注)
  • netstat -s | grep -i "embryonic connections dropped" 若有非零值,说明 SYN 队列溢出,和 port 耗尽无关但表现相似

单独盯 ip_local_port_range 容易误判,真正瓶颈常在 TCP 状态机调度上。

text=ZqhQzanResources