http/rest优先nginx;grpc/websocket等二进制协议选haproxy;lvs仅适用于四层高并发分发;f5/slb适合需ssl卸载、安全防护及运维托管的场景;客户端lb适用于内网微服务调用。

选 Nginx 还是 HAProxy?看协议和连接模式
如果你主要转发 HTTP/https API 请求,且后端是 vLLM、LmDeploy 这类 restful 推理服务,Nginx 上手快、配置直觉强,keepalive 和 weight 一行就能适配 A100/T4 混合集群。但一旦要支持 gRPC 流式响应或 WebSocket 长连接,Nginx 默认不复用后端连接(需手动配 proxy_http_version 1.1 + proxy_set_header Connection ''),否则容易触发 502 Bad gateway 或连接频繁重建。
HAProxy 原生把 TCP 层当一等公民,mode tcp 下对 gRPC、mysql、redis 等二进制协议零改造就能负载均衡;它的 balance leastconn 在模型推理这种响应时间波动大的场景下,比轮询更稳——实测在 8 节点集群中,QPS 波动降低约 35%。
- HTTP/REST 场景:优先
Nginx,省心;加 SSL 终止、缓存、压缩顺手 - TCP/gRPC/WebSocket/混合协议:直接上
HAProxy,别硬改Nginx - 注意:
HAProxy的timeout client和timeout server必须大于模型最长生成耗时,否则会主动断连
LVS 适合什么场景?别把它当“高级 Nginx”用
LVS 不是软件代理,它是内核态的 IP 包转发器,不解析 HTTP 头、不改包内容、不维持应用层连接状态。这意味着它压根不能做 URL 重写、Header 注入、cookie 会话保持这些事——你配了也没用。
它真正的价值在“扛量”:单台物理机跑 LVS-DR 模式,轻松撑住 50 万并发连接,而同配置的 Nginx 可能刚到 8 万就 CPU 满载。但代价是部署约束强:DR 模式要求 LVS 和所有后端服务器在同一二层网络,且后端必须配置 ARP 抑制(arp_ignore=1, arp_announce=2),漏配一条,流量就发往错机器。
- 只做四层分发(如:所有 8000 端口请求打到后端推理节点)→
LVS合理 - 需要七层策略(按
Host或path分路由)→ 必须前置HAProxy或Nginx,LVS只能当最外层“扛峰网关” - 云环境慎用:多数公有云不开放
arp_ignore权限,LVS-DR基本不可行
F5 / SLB 这类商业或托管方案,什么时候该交钱?
当你开始为“谁来扛 SSL 卸载”“怎么防 CC 攻击”“凌晨三点证书过期告警谁处理”发愁时,就是该考虑 F5 BIG-IP 或云上 SLB 的信号。F5 的 ASIC 芯片能把 TLS 握手开销压到微秒级,而软件方案在万级并发下,CPU 往往一半花在解密上;SLB 则自动轮换证书、集成 WAF 规则、与云监控联动告警——这些不是功能多,而是把运维不确定性收走了。
但代价明显:F5 单设备起价十几万,扩容得买新硬件;阿里云 SLB 按带宽和新建连接数计费,突发流量可能账单翻倍。更关键的是,你失去了对转发逻辑的完全控制权——比如想基于自定义 Header 做灰度,F5 要写 iRule,SLB 可能根本不支持。
- 金融/政务核心链路、有等保三级以上要求 →
F5是稳妥选择 - 业务跑在云上、团队无专职网络工程师 →
SLB省心,但务必提前压测其7 层 QPS极限(非标参数,云厂商常不公开) - 别迷信“全托管”,SLB 的健康检查默认走 HTTP GET /,若你的模型服务 / 健康接口返回慢于 5 秒,会被误判下线
客户端负载均衡(ribbon/Nacos SDK)为什么越来越常见?
服务网格和微服务普及后,“让客户端自己挑机器”成了新趋势。像 Nacos + spring Cloud LoadBalancer 这种组合,客户端启动时拉取实例列表,调用前本地执行 weightedRandom 或 responseTimeWeighted 算法——没有中间跳转,延迟低 5–10ms,也避免了 LB 单点故障风险。
但它要求所有客户端统一升级 SDK,且服务注册中心必须高可用。一旦 Nacos 集群挂掉,新启动的服务拿不到实例列表,直接启动失败。而传统服务端 LB(如 HAProxy)哪怕后端全挂,至少还能返回 503,留出缓冲时间。
- 内部微服务调用(如:调度服务调推理服务)→ 客户端 LB 更轻量、更灵活
- 面向公网的 API 入口 → 必须用服务端 LB,客户端不可信、不可控
- 混合架构可行:外层用
HAProxy做入口网关,内网服务间用客户端 LB,各司其职
真实选型没银弹。最常被忽略的不是性能数字,而是“谁来改配置、谁来盯告警、谁来查健康检查为什么失败”。一个 HAProxy 配置里少写一个 check inter 3000 rise 2 fall 3,后端机器宕机 5 分钟都发现不了——这比吞吐量少 1 万 QPS 更致命。