Linux 内存泄漏排查技巧与案例

1次阅读

内存泄漏的判定关键是看内存增长是否持续且不可逆：如进程rss持续上涨、重启归零，或sunreclaim单向爬升；slab中obj size固定且active持续增加（如dentry_cache）是典型信号。

Linux 内存泄漏排查技巧与案例

怎么看是不是内存泄漏，而不是单纯吃内存

内存占用高不等于泄漏，关键看增长是否持续且不可逆。比如 top 里某个进程 RSS 持续上涨、重启后归零，或者系统空闲时 /proc/meminfo 中的 Slab 或 SUnreclaim 单向爬升，这才是泄漏信号。常见假阳性：缓存（SReclaimable 高通常没事）、Buffers、Cached —— 它们会在内存压力下自动回收；而 SUnreclaim 长期不降，基本就是内核态泄漏了。

实操建议：

先跑 watch -n 1 'cat /proc/meminfo | grep -E "^(MemFree|Slab|SReclaimable|SUnreclaim)'"，盯 5–10 分钟，看哪项在涨
对比 slabtop -o（按 c 排序），重点关注 OBJ SIZE 固定、ACTIVE 持续增加的 cache，比如 dentry_cache、size-4096
如果用户进程没几个但 Slab 占几 G，基本可以排除应用层，直奔内核模块或驱动

valgrind 能用，但别在生产环境硬上

valgrind --tool=memcheck 是排查 C/C++ 用户态泄漏最直接的工具，但它会拖慢程序 20–30 倍，且无法检测内核内存分配（kmalloc、alloc_page）。更麻烦的是，它依赖符号表和调试信息，strip 过的二进制基本没法用。

实操建议：

编译时加 -g -O0（开发/测试环境），避免优化干扰堆栈追踪
运行前设 export MALLOC_CHECK_=2，能提前捕获部分 free 误用
重点看日志里 definitely lost 和 still reachable —— 前者是真泄漏，后者可能是全局指针未清，需结合代码判断
别用 valgrind 查 systemd 服务或容器 init 进程：它会拦截 fork，导致子进程失效

内核泄漏怎么定位到具体函数

用户态工具失灵时，/proc/slabinfo 和 tracepoint 是唯二靠谱路径。比如发现 size-4096 cache 不停涨，说明有内核路径反复调用 kmalloc(4096) 却漏掉 kfree。这时候靠 trace-cmd 抓调用栈比猜快得多。

实操建议：

先确认泄漏对象：grep "size-4096" /proc/slabinfo，看 num_objs 是否随时间增加
开 trace：trace-cmd record -e kmem:kmalloc -e kmem:kfree -F -C --Filter "bytes == 4096"（-F 强制 flush，防丢事件）
跑几分钟后 trace-cmd report，过滤出只有 kmalloc 没对应 kfree 的 ptr 地址
用 crash 工具读 vmcore 或直接 cat /proc/kcore | dd skip=$((0xffff880423744000)) count=4096 2>/dev/NULL | strings 看那块内存里存的是什么（比如 /proc/schedstat 字符串就暴露了来源）

curl、NSS、dentry 这类“第三方组件泄漏”最容易被忽略

很多内存泄漏根本不在你的代码里，而在你调用的库中。典型案例如 curl 7.19.7 + NSS 组合，在 https 探测时会不断创建 dentry 对象却不释放，表现为 Slab 高但业务无异常。这类问题不会报错，日志也干净，纯靠内存曲线和 slabtop 对象分布才能揪出来。

实操建议：

查版本：用 curl -V、ldd ./your_binary | grep nss、rpm -q nss 确认三方组件实际版本
搜已知缺陷：关键词组合如 "curl dentry leak"、"nss sdb cache leak"，linux 社区和 curl bugzilla 里常有现成 patch 或绕过方案（如 NSS_SDB_USE_CACHE=1）
临时验证：停掉可疑脚本或服务，观察 SUnreclaim 是否停止增长；再用 echo 2 > /proc/sys/vm/drop_caches 清 slab（仅限测试，生产慎用）

真正难的不是工具怎么用，而是得意识到：泄漏可能藏在你从没看过源码的库里，而且它只在特定路径（比如 HTTPS + 某个 NSS 版本 + 某种证书格式）下触发。盯着自己代码找三天，不如花十分钟查下依赖组件的已知 issue。

发表于：运维

近一天内

复制链接

什么是XML Catalog XML实体解析重定向方法

解决 Web 页面中 getUserMedia 视频流无法显示的常见陷阱

Linux setfacl与getfacl命令详解

html如何添加多个表格数据库数据类型

Golang实战：基于Context的任务超时自动取消演示

Linux 内存泄漏排查技巧与案例

怎么看是不是内存泄漏，而不是单纯吃内存

valgrind 能用，但别在生产环境硬上

内核泄漏怎么定位到具体函数

curl、NSS、dentry 这类“第三方组件泄漏”最容易被忽略

Linux 服务日志分析与故障排查

如何使用 NumPy 快速创建指定形状、全为 2 的数组

如何通过 JavaScript 动态切换按钮内图标实现菜单开闭状态可视化

Python stevedore 的扩展加载实践

Composer怎么配置GitLab Token 私有GitLab认证设置【教程】

composer如何强制使用特定PHP版本？（平台配置详解）

SQL tmp_table_size 的临时表内存阈值与磁盘切换监控

Linux 进程僵尸与孤儿处理技巧

SQL 密码管理与安全策略优化

如何用 JavaScript 实现卡片翻转（Flip Card）动画效果