c++如何使用Perf工具分析Linux程序性能_c++火焰图制作与解读【性能】

35次阅读

perf分析c++性能需确保符号完整与采样真实：编译加-g -fno-omit-frame-pointer，避免strip；用perf record -g -F 99 –call-graph dwarf采集，配合FlameGraph生成火焰图，重点关注顶部宽块、峡谷状突变及模板名冗余问题。

在 linux 下用 perf 分析 C++ 程序性能，核心是采集运行时的 CPU 采样、调用栈和函数热点，再通过火焰图直观定位瓶颈。关键不在“会不会用 perf”，而在于“采样是否真实反映问题场景”以及“符号是否完整可读”——尤其 C++ 的模板、内联、优化会严重干扰结果。

默认编译的 Release 版本常因 -O2/-O3 和 strip 导致 perf 显示 [unknown] 或地址而非函数名。必须：

不要只跑 perf record -g ./a.out。根据目标选合适事件：

查 CPU 瓶颈： perf record -g -F 99 --call-graph dwarf ./a.out（-F 99 表示每秒采样 99 次，平衡精度与开销；dwarf 比 fp 更准，尤其有内联或尾调用时）
查 cache miss： perf record -e cycles,instructions,cache-references,cache-misses -g ./a.out
查锁竞争： perf record -e sched:sched_stat_sleep,sched:sched_switch -g ./a.out
只分析某段时间：启动后按 Ctrl+Z 暂停 perf，用 perf script 看实时数据，确认 workload 已进入稳态再继续录制

perf script 输出的是栈样本文本，需用 FlameGraph 工具转成 svg：

ai一键生成数字人营销视频

245

先安装：git clone https://github.com/brendangregg/FlameGraph
导出折叠栈：perf script | ./FlameGraph/stackcollapse-perf.pl > out.folded
生成图：./FlameGraph/flamegraph.pl out.folded > flame.svg
注意：C++ 模板实例化名极长（如 std::vector<int std::allocator> >::push_back</int>），可用 --minwidth 0.5 参数避免被压缩掉，或预处理折叠相似模板名

火焰图不是“越高越好”或“越宽越差”，而是看：

基本上就这些。perf 不复杂，但容易忽略调试信息和采样上下文。真正卡住的往往不是“怎么画图”，而是“为什么图里看不到我想看的函数”。

发表于：后端开发

2025-12-08

复制链接

如何结合Golang测试提高代码可维护性_Golang测试驱动开发实践

top 里看到某个进程 CPU 使用率爆表但 strace 看不到明显系统调用怎么办