Linux 内存泄漏排查技巧与案例

1次阅读

内存泄漏的判定关键是看内存增长是否持续且不可逆:如进程rss持续上涨、重启归零,或sunreclaim单向爬升;slab中obj size固定且active持续增加(如dentry_cache)是典型信号。

Linux 内存泄漏排查技巧与案例

怎么看是不是内存泄漏,而不是单纯吃内存

内存占用高不等于泄漏,关键看增长是否持续且不可逆。比如 top 里某个进程 RSS 持续上涨、重启后归零,或者系统空闲时 /proc/meminfo 中的 SlabSUnreclaim 单向爬升,这才是泄漏信号。常见假阳性:缓存(SReclaimable 高通常没事)、BuffersCached —— 它们会在内存压力下自动回收;而 SUnreclaim 长期不降,基本就是内核态泄漏了。

实操建议:

  • 先跑 watch -n 1 'cat /proc/meminfo | grep -E "^(MemFree|Slab|SReclaimable|SUnreclaim)'",盯 5–10 分钟,看哪项在涨
  • 对比 slabtop -o(按 c 排序),重点关注 OBJ SIZE 固定、ACTIVE 持续增加的 cache,比如 dentry_cachesize-4096
  • 如果用户进程没几个但 Slab 占几 G,基本可以排除应用层,直奔内核模块或驱动

valgrind 能用,但别在生产环境硬上

valgrind --tool=memcheck 是排查 C/C++ 用户态泄漏最直接的工具,但它会拖慢程序 20–30 倍,且无法检测内核内存分配(kmallocalloc_page)。更麻烦的是,它依赖符号表和调试信息,strip 过的二进制基本没法用。

实操建议:

  • 编译时加 -g -O0(开发/测试环境),避免优化干扰追踪
  • 运行前设 export MALLOC_CHECK_=2,能提前捕获部分 free 误用
  • 重点看日志里 definitely loststill reachable —— 前者是真泄漏,后者可能是全局指针未清,需结合代码判断
  • 别用 valgrind 查 systemd 服务或容器 init 进程:它会拦截 fork,导致子进程失效

内核泄漏怎么定位到具体函数

用户态工具失灵时,/proc/slabinfo 和 tracepoint 是唯二靠谱路径。比如发现 size-4096 cache 不停涨,说明有内核路径反复调用 kmalloc(4096) 却漏掉 kfree。这时候靠 trace-cmd 抓调用栈比猜快得多。

实操建议:

  • 先确认泄漏对象grep "size-4096" /proc/slabinfo,看 num_objs 是否随时间增加
  • 开 trace:trace-cmd record -e kmem:kmalloc -e kmem:kfree -F -C --Filter "bytes == 4096"-F 强制 flush,防丢事件
  • 跑几分钟后 trace-cmd report,过滤出只有 kmalloc 没对应 kfreeptr 地址
  • crash 工具读 vmcore 或直接 cat /proc/kcore | dd skip=$((0xffff880423744000)) count=4096 2>/dev/NULL | strings 看那块内存里存的是什么(比如 /proc/schedstat 字符串就暴露了来源)

curl、NSS、dentry 这类“第三方组件泄漏”最容易被忽略

很多内存泄漏根本不在你的代码里,而在你调用的库中。典型案例如 curl 7.19.7 + NSS 组合,在 https 探测时会不断创建 dentry 对象却不释放,表现为 Slab 高但业务无异常。这类问题不会报错,日志也干净,纯靠内存曲线和 slabtop 对象分布才能揪出来。

实操建议:

  • 查版本:用 curl -Vldd ./your_binary | grep nssrpm -q nss 确认三方组件实际版本
  • 搜已知缺陷:关键词组合如 "curl dentry leak""nss sdb cache leak"linux 社区和 curl bugzilla 里常有现成 patch 或绕过方案(如 NSS_SDB_USE_CACHE=1
  • 临时验证:停掉可疑脚本或服务,观察 SUnreclaim 是否停止增长;再用 echo 2 > /proc/sys/vm/drop_caches 清 slab(仅限测试,生产慎用)

真正难的不是工具怎么用,而是得意识到:泄漏可能藏在你从没看过源码的库里,而且它只在特定路径(比如 HTTPS + 某个 NSS 版本 + 某种证书格式)下触发。盯着自己代码找三天,不如花十分钟查下依赖组件的已知 issue

text=ZqhQzanResources