Linux tracee 的 –trace event / –trace comm 的进程过滤规则实践

1次阅读

tracee –trace Event 需配合 –Filter 才能精准捕获特定进程事件;–filter “comm=curl” 匹配命令名(15字节限制、大小写敏感),–filter “pid=1234” 更稳定,容器中应优先用 –filter “pidns=4026531836″。

Linux tracee 的 –trace event / –trace comm 的进程过滤规则实践

tracee –trace event 怎么只抓特定进程的系统调用

直接用 --trace event 不加过滤,会捕获所有进程的事件,噪音极大。真正想看某个程序(比如 curl)的 openatconnect,得靠 --filter 配合进程名或 PID。

常见错误是写成 --filter "comm=curl" 却没生效——因为 comm 是内核态看到的“命令名”,长度限制 15 字节、不含路径、且大小写敏感;你用 /usr/bin/curl 启动,comm 仍是 curl,但若它 fork 出子进程并 execve 切换为 sh,那后续事件就匹配不上了。

  • --filter "comm=curl":匹配所有 comm 字段等于 curl 的事件,适合短生命周期、不频繁 exec 的场景
  • --filter "pid=1234":更稳,适合已知 PID 的调试(如先 pgrep curl 再 trace)
  • --filter "pidns=4026531836":容器环境必须用这个,避免宿主机其他同名进程干扰(pidns 可从 /proc/1234/statusNSpid 行反查)
  • 多个 filter 用空格拼接:--filter "comm=curl" --filter "event=openat",等价于 AND 关系

tracee –trace comm 抓不到子进程?这是预期行为

--trace comm 本身不是过滤开关,而是开启对进程上下文(comm、pid、uid 等)的采集,它默认 *不自动过滤* —— 你看到满屏 bashsystemd 就是因为没加 --filter

真正要“只看某类进程”,必须搭配 --filter;否则 --trace comm 只是让输出里多一列 comm 字段,对减少数据量毫无帮助。

  • 误操作:tracee --trace comm --trace event=openat → 依然扫全系统
  • 正确做法:tracee --trace event=openat --filter "comm=curl",此时 --trace comm 可省略(字段自动包含)
  • 注意:comm 在 exec 后会变,比如 sh -c 'curl example.com' 中,shcommshcurl 的才是 curl,父子进程不能靠 comm 连续追踪

容器里 tracee –filter pid 失效?该切 pidns 过滤

在容器中用 --filter "pid=1234" 常常没结果,不是 tracee 问题,而是你填的是宿主机 PID,而 tracee 默认运行在容器命名空间内,看到的是容器视角的 PID(通常从 1 开始)。

查法:进容器执行 cat /proc/1/status | grep NSpid,第二列才是 tracee 能识别的 PID;或者直接用 pidns 过滤,更可靠。

  • 查容器 pidns:readlink /proc/1234/ns/pid 输出类似 pid:[4026532670],取数字部分
  • 过滤写法:--filter "pidns=4026532670",这样无论容器内 PID 如何变化(比如重启),只要在同一个 pidns 下都命中
  • 兼容性注意:旧版 tracee(pidns 过滤,需升级或改用 cgroup_path

–filter 和 –output format 的顺序影响输出可读性

filter 是在内核/ebpf 层做的裁剪,越早加越省资源;但如果你同时用 --output format=json,又希望 human-readable 输出里保留 comm、pid 等字段,就得确认这些字段是否被 filter 逻辑隐式依赖。

例如:--filter "uid=0" 能正常工作,但 --filter "container_image=nginx" 要求 tracee 已加载容器运行时探针(如 CRI-O、containerd socket 路径配置正确),否则字段为空,过滤失效。

  • 优先用 pidcomm 过滤,它们不依赖外部服务
  • container_imagek8s_pod_name 前,先跑 tracee --list | grep container 确认相关事件可用
  • --output option:parse-arguments 会让参数解析更准(比如显示 openat(AT_FDCWD, "/etc/hosts", ...)),但增加开销,调试阶段再开

复杂点在于:filter 规则一旦写错(比如拼错字段名),tracee 默认静默忽略,不会报错,你只能看到“没数据”——最稳妥的方式是先不加 filter,用 --output format table 看几条原始事件,确认字段值和格式,再写 filter。

text=ZqhQzanResources