结构体字段顺序影响缓存命中率:高频字段应置前并按大小降序排列,避免指针跳转破坏局部性;优先用 std::variant 替代虚函数,必要时用对象池保证内存连续;SoA 布局可提升局部性,但需结合 perf 分析与汇编验证。

结构体字段顺序直接影响缓存命中率
CPU 缓存以 cache line(通常 64 字节)为单位加载内存。如果一个结构体的常用字段分散在不同 cache line 上,每次访问都可能触发多次缓存未命中。把高频访问、且常一起使用的字段放在结构体开头,并按大小降序排列(double → int → char),能显著减少跨行访问。
- 避免把
bool is_valid和std::String name放在一起:后者可能引发指针跳转,破坏局部性 - 用
static_assert(sizeof(MyStruct) 强制检查紧凑性 - 禁用编译器自动填充时慎用
[[no_unique_address]]或__attribute__((packed))—— 可能导致非对齐访问开销反超收益
用 AoS 改为 SoA 处理数组数据
当遍历大量同构对象并只访问其中几个字段(比如渲染循环中只读 position.x 和 position.y),传统 struct { vec3 pos; float mass; bool alive; }(AoS,Array of Structs)会导致大量无关字段被拖入缓存。改用 SoA(Structure of Arrays):把每个字段单独连续存储,如 std::vector,能让 CPU 预取器真正预取到下一批需要的数据。
- SoA 对 SIMD 友好,
_mm256_load_ps(&pos_x[i])可一次性加载 8 个 x 坐标 - 迁移成本高:需重构访问逻辑,
objs[i].mass变成mass[i];但若 80% 场景是批量计算,值得 - 注意
std::vector的动态增长可能让不同字段数组内存不邻近——可手动用一块大内存 + 指针偏移模拟“伪 SoA”
避免虚函数表和指针间接跳转破坏局部性
多态对象(如 std::unique_ptr 数组)实际存储的是指针,而真实对象在堆上随机分布。每次调用 shape->draw() 不仅要加载虚表指针,还要跳转到不确定位置的代码段和数据段,彻底摧毁缓存局部性。
- 优先用
std::variant替代继承 —— 所有数据内联存储,std::visit分发也无指针跳转 - 若必须多态,考虑
std::vector<:byte>+ placement new 构建对象池,保证实例内存连续 - 虚函数本身不慢,慢的是它带来的数据/指令空间随机性;profile 中看到
cache-misses突增且伴随branches-mispredictions,大概率是这个问题
// 示例:SoA 初始化(伪连续布局) alignas(64) std::vector buffer; buffer.resize(N * (sizeof(float) * 3 + sizeof(float) + sizeof(bool))); float* pos_x = reinterpret_cast(buffer.data()); float* pos_y = pos_x + N; float* pos_z = pos_y + N; float* mass = pos_z + N; bool* alive = reinterpret_cast(mass + N);
缓存局部性不是靠猜,而是靠 perf stat -e cache-misses,instructions,cycles 对比前后数据。最容易被忽略的是:字段重排或 SoA 化后,如果编译器生成了更多寄存器溢出(spill),性能反而下降——记得开 -O2 以上并检查汇编输出。
立即学习“C++免费学习笔记(深入)”;