Linux pktgen 的内核态包生成与高 PPS 压测

6次阅读

pktgen模块未加载需先确认内核配置config_net_pktgen是否启用,若为m则检查模块路径;发包前须按顺序执行add_device、set参数、start三步;pps受限于协议和网卡队列,需绑定cpu、绕过协议栈并调大clone_skb;压测时应隔离网口、限速并定期reset释放skb。

Linux pktgen 的内核态包生成与高 PPS 压测

pktgen 内核模块没加载,modprobe pktgen 报错找不到模块

linux 5.10+ 主线内核默认不编译 pktgen,得手动确认是否启用。不是“装了就能用”,而是取决于内核配置项 CONFIG_NET_PKTGEN 是否为 ym

实操建议:

  • 查当前内核是否支持:zcat /proc/config.gz | grep CONFIG_NET_PKTGEN(若无 /proc/config.gz,去 /lib/modules/$(uname -r)/build/.config 查)
  • 若为 CONFIG_NET_PKTGEN=m,但 modprobe pktgen 失败,先检查模块路径:find /lib/modules/$(uname -r) -name "pktgen.ko*"
  • 常见坑:某些云厂商定制内核(如 AWS AL2、azure ubuntu)直接删掉了 pktgen 模块,此时只能换内核或改用用户态工具(如 moon-gentrex

写入 /proc/net/pktgen/kpktgend_0 后没发包,pgctrl 显示 Stopped

pktgen 是状态机驱动,写入配置后必须显式触发启动,且任意配置错误都会卡在 Stopped 状态,不会报错提示。

实操建议:

  • 必须按顺序执行三步:echo "add_device eth0" > /proc/net/pktgen/kpktgend_0echo "set eth0 dst_mac aa:bb:cc:dd:ee:ff" > /proc/net/pktgen/eth0echo "start" > /proc/net/pktgen/pgctrl
  • 常见错误:目标 MAC 未设、dst_ipsrc_ip 不在同一子网却没开 flag IP_NODEFRAG、MTU 超过物理口限制导致静默丢弃
  • 验证是否真在发包:cat /proc/net/pktgen/eth0 | grep -E "(pkts|pps|bytes)",别只看 state 字段

PPS 上不去,cat /proc/net/pktgen/eth0 显示 pps 卡在几万

pktgen 的瓶颈不在 CPU,而在内核协议栈路径和网卡队列调度。即使单核满载,也常因软中断积或 XDP bypass 缺失导致吞吐受限。

实操建议:

  • 关掉所有干扰:禁用 irqbalance,绑死 pktgen 控制进程到特定 CPU,并把对应网卡 IRQ 绑到同一 CPU:echo 1 > /proc/irq/$(grep eth0 /proc/interrupts | awk '{print $1}' | tr -d ':')/smp_affinity_list
  • 强制绕过协议栈:加 flag QUEUE_MAP_CPU + flag IPSUM,并确保网卡支持多队列且已启用:ethtool -L eth0 combined 8
  • 别信默认 count:设成 0(无限发包),否则发完就停;同时调大 clone_skb(如 echo 10000 > /proc/net/pktgen/eth0)减少内存分配开销

压测时宿主机网络异常,ssh 断连、ping 延迟飙升

pktgen 直接喂数据到驱动层,不走 netfilter,但高密度包会挤占 RX/TX ring buffer、触发 softirq 饥饿,进而影响本机其他网络行为。

实操建议:

  • 严格隔离测试口:用独立物理网卡(别用管理口),并禁用其上所有服务:ip link set eth0 down && systemctl stop systemd-networkd
  • 限速保底线:用 rate 参数硬限(如 echo "rate 1000000" > /proc/net/pktgen/eth0),比靠 CPU 调度更稳
  • 最容易被忽略的一点:pktgen 不释放 skb 缓存,长时间运行后 slabtop | grep pktgen 可能显示大量 pktgen_pkt,需定期 echo "reset" > /proc/net/pktgen/pgctrl
text=ZqhQzanResources