Linux网络连接优化实践_高并发场景说明【教程】

15次阅读

net.ipv4.tcp_tw_reuse 在高并发短连接场景下不能乱开,因其仅对客户端新连接有效且依赖tcp_timestamps,NAT环境下易失效;应优先扩端口范围、调短fin_timeout,并配平somaxconn与应用backlog。

Linux网络连接优化实践_高并发场景说明【教程】

为什么 net.ipv4.tcp_tw_reuse 在高并发下不能乱开

在短连接密集的场景(比如 http API 网关、微服务调用),大量连接快速建立又关闭,容易TIME_WaiT 状态。有人直接启用 net.ipv4.tcp_tw_reuse = 1 想复用端口,结果出现偶发连接失败或重传异常——这不是参数没生效,而是它依赖时间戳(tcp_timestamps)且只对「客户端」行为有效。

  • tcp_tw_reuse 仅允许把处于 TIME_WAIT 的本地端口,重新用于**向外发起的新连接**(即本机作为 client),对 server 端监听无影响
  • 必须同时开启 net.ipv4.tcp_timestamps = 1,否则内核会忽略 tw_reuse
  • 后端服务部署在 NAT 后(如容器集群经 kube-proxy),时间戳可能被中间设备篡改或丢弃,导致复用失败甚至 RST
  • 更稳妥的做法是:优先调大 net.ipv4.ip_local_port_range(例如 "1024 65535"),再配合 net.ipv4.tcp_fin_timeout 缩短 TIME_WAIT 持续时间(注意不能低于 30 秒,避免丢 ACK)

net.core.somaxconn 和应用层 listen() 的 backlog 要配平

linux 内核维护两个队列:SYN 半连接队列(net.ipv4.tcp_max_syn_backlog)和全连接队列(net.core.somaxconn)。当应用调用 listen(fd, backlog) 时,实际生效的是 min(backlog, somaxconn)。如果只改内核参数却不改代码里的 backlog 值,等于白调。

  • 查看当前全连接队列上限:cat /proc/sys/net/core/somaxconn(默认常为 128)
  • nginx 默认 listen ... backlog=511,但若 somaxconn 是 128,则真正可用仍是 128
  • gonet.Listen("tcp", addr) 默认不设 backlog,等价于 128;需显式用 net.ListenConfig{Control: ...} 或启动前调 sysctl -w net.core.somaxconn=4096
  • 队列溢出表现:客户端 connect() 随机超时、服务端 ss -s 显示 embryonicfailed 计数上升

HTTP 长连接别只靠 keepalive_timeout,还得管住 tcp_keepalive_*

Web 服务设了 keepalive_timeout 75(Nginx)或 http.Server.IdleTimeout = 75 * time.Second(Go),只是应用层空闲阈值。底层 TCP 连接若被中间防火墙静默回收(常见于云厂商 SLB、企业出口网关),应用层根本收不到 FIN,只能靠内核级保活探测兜底。

  • net.ipv4.tcp_keepalive_time:连接空闲多久后开始发 keepalive 包(默认 7200 秒,太长!建议调至 600)
  • net.ipv4.tcp_keepalive_intvl:两次探测间隔(建议 60)
  • net.ipv4.tcp_keepalive_probes:连续失败几次后断连(建议 3)
  • 这些参数对所有 TCP 连接生效,不是 per-socket;若业务有低频长链(如 iot 心跳),需单独在 socket 上 setsockopt(TCP_KEEPIDLE/TCP_KEEPINTVL/TCP_KEEPCNT) 覆盖全局值

udp 场景下 net.core.rmem_max 不够会导致静默丢包

UDP 没有重传机制,接收缓冲区溢出时内核直接丢包,且不通知用户态。监控上表现为 netstat -supacket receive errorsrcvbuferrors 持续增长,但应用日志里查不到错误——因为 recvfrom() 返回 -1 且 errnoEAGAINENOMEM,而很多框架忽略了这个分支。

  • 先看当前限制:cat /proc/sys/net/core/rmem_max(常见默认值 212992 字节 ≈ 208KB)
  • 单个 UDP socket 接收缓冲区上限受此值约束,即使你调 setsockopt(fd, SOL_SOCKET, SO_RCVBUF, &size, sizeof(size)) 也超不过它
  • 突发流量(如 dns 放大攻击、实时音视频数据洪峰)极易打满缓冲区;建议根据单包大小 × 预估并发包数 × 安全系数(如 2~3)反推所需值,例如:1500B × 1000pps × 3 ≈ 4.5MB → 设 rmem_max = 4608000
  • 调整后需确认应用是否显式设置了 SO_RCVBUF,否则仍用系统默认初始值(通常远小于 max)
sysctl -w net.core.rmem_max=4608000 sysctl -w net.core.rmem_default=4608000

真正的瓶颈往往不在协议最外层,而在参数之间的隐式耦合——比如开了 tcp_tw_reuse 却忘了开时间戳,或者调大了 somaxconn 却没改应用 listen 的 backlog 参数。这些地方不报错,只悄悄降级。

text=ZqhQzanResources