Linux监控系统延迟_监控链路性能分析

5次阅读

linux延迟监控需分层定位：应用层用perf trace、pidstat、bpftrace观测系统调用与线程行为；内核调度层分析实时延迟、中断分布与上下文切换；网络协议栈层分解tcp端到端延迟并检查重传、队列溢出；硬件层通过ethtool、dmesg和tc qdisc排查驱动丢包、固件错误与缓冲膨胀。

Linux系统延迟监控和链路性能分析，核心在于分层定位：从应用响应、内核调度、网络协议栈到物理链路，逐级排查瓶颈。不能只看平均延迟，要关注尾部延迟（如P95/P99）和抖动。

应用层与系统调用延迟观测

应用响应慢，未必是代码问题，可能是系统资源争抢或阻塞。常用工具包括：

perf trace -e ‘syscalls:sys_enter_*’ -p $PID：跟踪指定进程的系统调用耗时，识别阻塞型调用（如 read/write/accept）
pidstat -w -u -d -t 1：每秒输出线程级上下文切换、CPU使用、I/O等待，高 cswch/s 或 %iowait 往往对应延迟突增
bpftrace -e ‘kprobe:do_syscall_64 { @start[tid] = nsecs; } kretprobe:do_syscall_64 /@start[tid]/ { @us = hist((nsecs – @start[tid]) / 1000); delete(@start[tid]); }’：统计系统调用微秒级延迟分布

内核调度与CPU干扰分析

高优先级任务被抢占、CPU频点波动、NUMA跨节点访问都可能导致毫秒级抖动：

用 chrt -f 99 sleep 10 && perf sched latency -s max 测试实时调度延迟上限，>100μs 需检查 CPU isolation（启动参数添加 isolcpus=, nohz_full=, rcu_nocbs=）
cat /proc/interrupts 查看中断分布，网卡软中断（NET_RX）集中在单个CPU会引发瓶颈，配合 irqbalance –debug 或手动绑定（echo $MASK > /proc/irq/$N/smp_affinity）
perf record -e ‘sched:sched_switch’ -a sleep 5 && perf script | awk ‘{print $9,$12}’ | sort | uniq -c | sort -nr | head -10 快速识别高频上下文切换对

网络协议栈与链路延迟分解

端到端延迟 = 应用处理 + 协议栈入队/出队 + 驱动发送 + 物理传输 + 对端处理。需分段测量：

用 tcpretrans（bpftrace版）或 ss -i 观察重传、SACK、RTO，高 retrans/segs_out 表示链路丢包或拥塞
ping -c 10 -q $IP && tcpping -x 10 $IP 443 对比ICMP与TCP SYN延迟，若后者显著更高，说明SYN队列积压或防火墙策略延迟
cat /proc/net/snmp | grep -A1 Tcp | tail -1 查看 InCsumErrors 和 ListenOverflows，前者反映网卡校验卸载异常，后者表示 accept 队列溢出（需调大 net.core.somaxconn 和应用 backlog）

硬件与驱动层可观测性补充

底层问题常被掩盖在软件指标之下：

ethtool -S eth0 | grep -E “(drop|error|over)” 关注 rx/tx_dropped（驱动丢包）、rx_missed_errors（Ring Buffer 溢出）、tx_aborted_errors（驱动重试失败）
dmesg -T | grep -i “net|eth|firmware” 检查网卡固件告警、DMA映射失败、PCIe AER错误
启用 CONFIG_NET_SCHED 后用 tc qdisc show dev eth0 确认是否启用了 fq_codel 或 cake，避免无队列管理导致缓冲膨胀（Bufferbloat）

发表于：运维

四天前

复制链接

css 初级项目中图片与文字无法对齐怎么办_利用行内块与对齐属性解决

Yii2里怎么用控制台命令_创建自定义console控制器任务【指南】

mysql如何监控危险操作SQL_mysql慢查询与错误日志审计

Linux日志爆满导致服务异常_磁盘清理方案

币安(Binance)交易所全球官网最新直连入口币安交易所官方app v4.2.1极速下载

Linux监控系统延迟_监控链路性能分析

应用层与系统调用延迟观测

内核调度与CPU干扰分析

网络协议栈与链路延迟分解

硬件与驱动层可观测性补充

Python CSV写入时出现空白行的成因与解决方案

如何实现游戏中的积分系统_计分与等级功能开发教程【操作】

Linux CRI-O 的轻量级设计与 Kubernetes 集成性能对比

c++怎么截取字符串_c++ substr函数用法【入门】

composer怎么安装Intervention_composer怎么处理图片缩放裁剪【手册】

Nginx针对HTTP代理开启分片传输Slice模块

如何为 JavaScript 动态生成的玩家名称添加样式化高亮

ThinkPHP控制器方法怎么调用_ThinkPHP控制器动作执行操作【教程】

sublime怎么开启拼写检查_sublime英文拼写纠错功能【设置】

MacOS系统安装脚本自动化部署与分阶段配置流程