Linux tracee 的 –output json / eBPF 输出格式与 SIEM 集成模板

2次阅读

tracee json字段不稳定因事件类型动态拼接,应使用–output format:json:Event统一结构,字段收敛为timestamp、processname、eventname、args;args为数组,含name/value;ppid为空需开启–capabilities bypass=0及task_newtask等事件;体积大则用–output option:drop-args并限频过滤。

Linux tracee 的 –output json / eBPF 输出格式与 SIEM 集成模板

tracee 输出的 JSON 格式字段不稳定,SIEM 解析经常断

tracee 的 --output json 默认输出不是固定 schema,而是按事件类型动态拼接字段(比如 execveargvopenat 却没有),SIEM 做字段映射时一遇到新事件就丢数据。

实操建议:

  • 强制统一输出结构:加 --output format:json:event(注意是 event 不是 json),它会把所有事件包装进 {"event":{...}} 容器,且字段名收敛为 timestampprocessNameeventNameargs 四个主干字段
  • args 是数组,每个元素含 namevalue,比如 {"name":"pathname","value":"/etc/passwd"} —— SIEM 用 JSONPath 提取比硬匹配字段名更可靠
  • 别依赖 piduid 这类顶层字段,它们只在部分事件里出现;一律从 args 里解析,或启用 --output option:parse-arguments 让 tracee 自动展开常见参数

eBPF 程序加载失败导致 tracee 启动卡住,日志只报 failed to load eBPF program

这不是 tracee 本身问题,而是内核版本、BTF 信息、clang 编译环境三者不匹配。尤其在 centos/RHEL 8.x 或 ubuntu 20.04 这类 LTS 系统上高频发生。

实操建议:

  • 先确认 BTF 是否可用:ls /sys/kernel/btf/vmlinux,不存在就装 kernel-devel + bpftool,再运行 bpftool btf dump file /sys/kernel/btf/vmlinux format c > /tmp/vmlinux.h
  • tracee --debug --output format:json:event 启动,看 debug 日志里具体卡在哪个 eBPF 程序(如 tracepoint/syscalls/sys_enter_execve),再针对性检查对应内核头文件是否缺失
  • 生产环境绕过编译:加 --output option:external-btf,让 tracee 直接读取系统已有的 BTF,避免现场编译失败

SIEM 中无法关联进程树和父进程,ppid 字段总为空

tracee 默认不采集进程上下文,ppidcommcwd 这些字段需要显式开启追踪才能填入,否则 JSON 里就是 NULL 或缺失。

实操建议:

  • 必须加 --capabilities bypass=0(否则容器内权限不足拿不到父进程信息)
  • 启用进程上下文收集:--output option:parse-arguments --output option:parse-environment --output option:parse-cgroup
  • 如果仍缺 ppid,说明 tracee 没监听 task_newtasktask_rename 事件,得手动加 --events task_newtask,task_rename,不然父子关系链就断了

JSON 输出体积太大,Filebeat 吞吐跟不上,ES 频繁 bulk timeout

默认 tracee 输出每个事件都带完整进程/容器/命名空间上下文,一条 execve 事件能到 2KB+,Filebeat 默认配置根本吃不住。

实操建议:

  • 砍掉非必要字段:用 --output option:drop-args 去掉 args 数组里的二进制值(比如 base64 编码的 env var),保留文本型 value 就够 SIEM 做规则匹配
  • 限制事件频率:--Filter event=execve,openat,connect --filter pid=12345,别全量抓,重点监控高危 syscall + 关键进程
  • Filebeat 端调大缓冲:bulk_max_size: 1000 + timeout: 90s,并确保 output.elasticsearch.compression_level 设为 5 以上

真正麻烦的是容器逃逸场景下,tracee 要同时跟踪 host 和 containerd 两个命名空间的事件,字段嵌套层级会突然变深,这时候 JSONPath 表达式得重写,而且不能假设 cgroup_path 一定存在 —— 得先判断字段是否存在再取值。

text=ZqhQzanResources