dmesg 显示 “TCP: out of sequence” 或 “invalid seq” 的网络问题根因

12次阅读

“TCP: out of sequence”或“invalid seq”日志表明内核因序列号严重偏离接收窗口而丢包,根因多为中间设备干扰、链路丢包或负载均衡异常,少数源于本机时间跳变、网卡offload缺陷或应用非正常关闭。

dmesg 显示 “TCP: out of sequence” 或 “invalid seq” 的网络问题根因“invalid seq” 日志,通常不是 TCP 协议本身出错,而是内核在接收数据包时发现其序列号(seq)与当前连接的接收窗口严重不匹配,从而触发丢包并记录该提示。这类日志本身是结果,不是根因,需结合网络路径、设备行为和应用模式综合判断。

常见真实根因:中间设备干扰或异常丢包

多数情况下,问题源头不在本机 TCP ,而在网络路径中:

  • 防火墙、NAT 设备或运营商 DPI(深度包检测)设备对 TCP 包做了非标准处理(如重写 TCP 选项、错误分片、强制 ACK 拦截),导致后续包 seq 跳变或乱序加剧;
  • 链路存在间歇性丢包(如光衰、Wi-Fi 干扰、网卡驱动 bug),使接收方长期未收到某段数据,重传包到达时 seq 已远超预期窗口(例如窗口已滑动到 100000,却收到 seq=5000 的旧包);
  • 负载均衡器或代理(如 HAproxy、云 LB)开启“连接复用”但未正确维护 TCP 状态,将不同连接的数据混发给后端,造成 seq 错乱。

本机侧可能原因:时间敏感型异常或配置偏差

虽较少见,但以下本机行为也会触发该日志:

  • 系统时间被大幅回拨(如 NTP 突然校正 -30 秒),导致 TCP 时间戳(TSval)骤降,内核误判为旧包而丢弃(尤其开启 tcp_invalid_ratelimit 时);
  • 网卡启用 LRO(Large Receive Offload)或 GRO(Generic Receive Offload)且固件有缺陷,将多个 TCP 段错误合并,破坏原始 seq/ack 关系;
  • 应用层非正常关闭连接(如进程 kill -9 后残留 FIN/RST 未清理),新连接复用相同四元组时,旧乱序包抵达触发校验失败。

如何定位:从日志和抓包交叉验证

单看 dmesg 日志价值有限,必须配合其他信息:

  • tcpdump -nni any 'tcp[tcpflags] & (tcp-syn|tcp-rst) != 0 or tcpseq != 0' 抓包,重点观察报文 seq/ack 值是否突变、是否有重复 seq、是否存在大量 retransmission 或 dup ack;
  • 检查 /proc/net/snmpTcpExt: 行的 OutOfwindowIcmpsInvalidSACKsDSACKOldSent 计数是否持续增长;
  • 确认是否仅特定目标 IP/端口出现该日志——若只发生在某云服务或某运营商出口,基本可锁定中间网络问题
  • 临时关闭 offload 功能测试:ethtool -K eth0 gro off lro off gso off tso off,观察日志是否消失。

缓解与修复建议

根据定位结果选择对应措施:

  • 若确认为中间设备干扰:联系网络管理员或云厂商,提供抓包文件,要求排查 DPI/NAT/SLB 配置;必要时改用 TLS 封装(绕过中间 TCP 检查)或切换传输协议(如 QUIC);
  • 若为本机 offload 引起:永久禁用问题 offload 项(写入 udev 规则或 systemd service);升级网卡固件及内核;
  • 若涉及时间跳变:使用 chrony 替代 ntpd,配置 makestep 1 -1 限制步进校正,避免大偏移;
  • 不建议盲目调大 net.ipv4.tcp_invalid_ratelimit 或关闭 net.ipv4.tcp_sack —— 这会掩盖问题,降低性能与可靠性。
text=ZqhQzanResources