Python 日志采集的 Agent 选择

1次阅读

优先选 fluent-bit，因其多行处理更灵活、内存占用低且轮转支持更好；python 应用应使用 jsonformatter 输出结构化日志，配合 agent 的 json 解析插件提取字段，避免正则匹配与手动拼接。

用 `filebeat` 还是 `fluent-bit` 采集 Python 日志？

Python 应用日志通常是文本行，没结构、没时间戳（或格式不统一），filebeat 和 fluent-bit 都能读文件，但行为差异很大：filebeat 默认按行切分、支持简单解析（如 json 解码），但对多行 traceback 支持弱；fluent-bit 多行处理更灵活，内置 multiline 插件可基于正则匹配续行，适合捕获完整的 Traceback。

实操建议：

立即学习“Python免费学习笔记（深入）”；

如果日志里大量出现跨行的 Exception 或 Traceback，优先选 fluent-bit，配置 Parser_Firstline 匹配 ^d{4}-d{2}-d{2} 或 ^Error，再用 Parser_Nextline 匹配缩进/空格开头的续行
filebeat 要处理多行必须启用 multiline.pattern + multiline.negate + multiline.match，但一旦正则写错（比如漏了 $ 锚点），整块日志会错位拼接，排查极难
fluent-bit 内存占用更低，适合容器环境；filebeat 在 windows 下路径处理更稳，linux 下两者差别不大

Python 应用自己打日志，怎么让 Agent 更好识别字段？

Agent 不会自动理解你写的 "user_id=123, action=login" 是结构化数据——它默认当纯字符串。想提取 user_id、action，得让日志本身带格式，或靠 Agent 做解析。

实操建议：

立即学习“Python免费学习笔记（深入）”；

在 Python 里用 Logging.JSONFormatter 输出 JSON 行（每行一个 JSON 对象），filebeat 开 json.keys_under_root: true，fluent-bit 用 parser json 插件即可直接提取字段
避免手拼字符串日志，比如 logger.info(f"user_id={uid}, action={act}") ——这种要靠正则提取，维护成本高，且字段名易变（user_id 某天变成 uid 就断了）
如果必须用非 JSON 格式，至少固定分隔符，比如 | 或 t，再配 fluent-bit 的 parser Regex，比模糊匹配更可靠

`logging.handlers.RotatingFileHandler` 日志轮转后，Agent 会丢日志吗？

会，而且很常见。轮转本质是 rename 文件（app.log → app.log.1），filebeat 默认只监控打开的文件句柄，rename 后旧文件句柄还在，但新写入停了；fluent-bit 默认基于 inotify 监听文件名变化，rename 后会丢失后续轮转产生的新文件（如 app.log.2）。

实操建议：

立即学习“Python免费学习笔记（深入）”；

filebeat 必须开 close_inactive: 5m + close_renamed: true + clean_inactive: 72h，否则老文件句柄一直占着，磁盘可能被撑爆
fluent-bit 要配合 tail 输入插件的 refresh_interval（比如 10s）和 skip_long_lines，并确保 path 配的是通配符（如 /var/log/app/app.log*），不然轮转后的新文件不会被发现
最省心的方式：Python 应用用 WatchedFileHandler，它会在每次写入前检查文件是否被 move/rename，主动 reopen，Agent 就不用操心轮转时机

为什么加了 `json.add_fields` 还是看不到 `service_name` 字段？

因为 json.add_fields 只作用于解析后的 JSON 日志内容，不是给每条日志“打补丁”。如果你的日志不是 JSON 格式，这个配置完全不生效——字段根本加不上去。

实操建议：

立即学习“Python免费学习笔记（深入）”；

想全局加字段（如 service_name、env），应该用 processors（filebeat）或 Filter（fluent-bit）：比如 filebeat 的 add_fields 在顶层，不是嵌在 json 下；fluent-bit 用 filter record_modifier 插件
字段名冲突时（比如日志里已有 level，你又用 add_fields 加一个同名字段），filebeat 默认覆盖，fluent-bit 默认跳过，行为不一致，上线前得实测
所有加字段的操作都在 Agent 端做，别指望 Python logging 的 extra 参数能自动透传到 ES 或 Loki——除非你用了 JSONFormatter 把 extra 写进日志体里

多行、轮转、字段注入——这三个点只要有一个没对齐，日志就可能断、乱、缺。调的时候别只看单条日志是否出来，重点盯连续操作下的状态一致性。

发表于：后端开发

近一天内

复制链接

SQL数据库虚拟列原理_派生列存储机制

php二维数组升序排列_php多维数组排序操作技巧【解析】

PHPJSON怎么处理_PHPJSON数据编码与解码方法详解

如何在 PHP 原生 SMTP 实现中正确发送抄送（CC）邮件

Linux 告警通知策略与优化

Python 日志采集的 Agent 选择

用 `filebeat` 还是 `fluent-bit` 采集 Python 日志？

Python 应用自己打日志，怎么让 Agent 更好识别字段？

`logging.handlers.RotatingFileHandler` 日志轮转后，Agent 会丢日志吗？

为什么加了 `json.add_fields` 还是看不到 `service_name` 字段？

LeetCode 长回文子串问题的内存优化与高效动态规划解法

css过渡如何在移动端应用_通过适配策略和过渡控制移动端效果

如何用css实现一个简洁的表单验证功能_通过:focus和:valid伪类提高表单交互性

Linux 运维操作如何做到可重复

html一行字如何显示两边分开显示

Linux 服务高可用与容灾设计

composer如何设置minimum-stability为dev_composer允许开发版包安装【尝鲜】

MapForce如何连接REST API作为数据源

如何在Golang中调试和捕获错误堆栈信息_Golang错误堆栈调试与分析工具

Sublime怎么运行Rust_Sublime Rust编译环境搭建【实战】

Python 日志采集的 Agent 选择

用 filebeat 还是 fluent-bit 采集 Python 日志？

Python 应用自己打日志，怎么让 Agent 更好识别字段？

logging.handlers.RotatingFileHandler 日志轮转后，Agent 会丢日志吗？

为什么加了 json.add_fields 还是看不到 service_name 字段？

用 `filebeat` 还是 `fluent-bit` 采集 Python 日志？

`logging.handlers.RotatingFileHandler` 日志轮转后，Agent 会丢日志吗？

为什么加了 `json.add_fields` 还是看不到 `service_name` 字段？