c++如何实现一个内存池_c++高性能内存分配器设计【项目】

1次阅读

固定块内存池最常用,通过预分配大内存并用原子操作管理空闲链表实现线程安全;多级池支持多种尺寸;TLS缓存降低竞争;需补充构造/析构、对齐、统计及STL适配。

c++如何实现一个内存池_c++高性能内存分配器设计【项目】

c++ 实现一个轻量、高效、线程安全的内存池,核心是避免频繁调用 new/deletemalloc/free,通过预分配大块内存 + 自管理空闲链表来加速小对象分配。不依赖第三方库,适合高频创建/销毁固定大小对象的场景(如游戏实体、网络包、日志节点等)。

一、固定块内存池(Fixed-Size Pool)——最常用、最易控

适用于对象大小统一(如 64 字节消息头、128 字节缓冲区)。原理:一次性 malloc 一大块连续内存,切分为等长“槽位”,用单向链表串联所有空闲槽,分配即取表头,回收即插回表头。

  • char* 指针管理原始内存,避免构造/析构干扰(仅分配,不调用 ctor/dtor)
  • 空闲链表节点复用槽位本身:每个空闲槽的前 8 字节(x64)存下一个空闲槽地址
  • 分配时原子读-改-写(std::atomic)保证多线程安全,无需锁
  • 示例关键片段:

class FixedPool {     char* _memory;     std::atomic<char*> _free_list{nullptr};     size_t _block_size;     size_t _capacity; <p>public: FixedPool(size_t block_sz, size_t n_blocks)  : _block_size{block_sz}, _capacity{n_blocks} { _memory = static_cast<char<em>>(malloc(_block_size </em> n_blocks)); // 构建空闲链表:从高地址往低地址连(避免 cache 颠簸) char<em> ptr = _memory + _block_size </em> n_blocks; for (size_t i = 0; i < n_blocks; ++i) { ptr -= _block_size; *reinterpret_cast<char**>(ptr) = _free_list.load(); _free_list.store(ptr); } }</p><pre class="brush:php;toolbar:false;">void* allocate() {     char* node = _free_list.load();     while (node && !_free_list.compare_exchange_weak(node, *reinterpret_cast<char**>(node))) {}     return node; }  void deallocate(void* p) {     if (!p) return;     char* node = static_cast<char*>(p);     char* expected;     do {         expected = _free_list.load();         *reinterpret_cast<char**>(node) = expected;     } while (!_free_list.compare_exchange_weak(expected, node)); }

};

二、多级池(Multi-Slab Pool)——支持多种尺寸,兼顾灵活性与性能

当需分配不同大小对象(如 32B/64B/128B/256B)时,可为每种尺寸维护一个独立 fixed pool,统一封装MultiSlabPool。按 size 向上取整到最近的“档位”,查表分发。

立即学习C++免费学习笔记(深入)”;

c++如何实现一个内存池_c++高性能内存分配器设计【项目】

Type Studio

一个视频编辑器,提供自动转录、自动生成字幕、视频翻译等功能

c++如何实现一个内存池_c++高性能内存分配器设计【项目】 61

查看详情 c++如何实现一个内存池_c++高性能内存分配器设计【项目】

  • 档位设计建议:32, 64, 128, 256, 512, 1024, 2048(覆盖常见小对象)
  • 分配时先做 size 判断(if-else 链 or constexpr map),避免虚函数或 map 查找开销
  • 每个子池独立管理,互不影响;总内存用量可控,无外部碎片(但有内部碎片)
  • 不实现自动扩容,超限可 fallback 到 malloc(或抛异常,视业务而定)

三、线程局部缓存(Thread-Local Cache)——进一步减少竞争

在多线程高频分配场景下,即使用了原子操作,compare_exchange 仍可能因 cache line bouncing 造成性能瓶颈。引入 TLS 缓存层:每个线程私有小(如 16 个指针),满时批量归还给全局池,缺时批量申请。

  • thread_local std::vector<void></void> 或自定义定长(更省内存)
  • 分配优先查 TLS 栈,空再向全局池要;回收优先压入 TLS 栈,满再批量交还
  • 显著降低原子操作频率,实测在 8 线程下比纯全局池吞吐提升 3–5×
  • 注意:TLS 栈需在 thread exit 时清空归还,避免内存泄漏(可用 thread_local 析构函数或 at_thread_exit)

四、关键增强点(项目落地必备)

真实项目中还需补全这些能力,才能替代 new/delete:

  • 构造/析构支持:提供 construct<t>(args...)</t>destroy<t>(ptr)</t>,用 placement new / explicit dtor 调用
  • 对齐控制:分配时按 alignof(T) 对齐,可在 block 头预留 padding,或用 std::aligned_alloc(C++17)申请底层内存
  • 统计与调试:记录已分配数、峰值、碎片率;启用宏开关,支持分配栈捕获(__builtin_return_address)
  • STL 容器适配:实现 std::allocator 接口,让 std::vector<t myalloc>></t> 等无缝使用

基本上就这些。不复杂但容易忽略的是:别过早优化——先 profile 确认内存分配真是瓶颈;固定池够用就别上多级;线程缓存带来收益也增加复杂度,评估线程数和分配频次再决定。项目初期用 fixed pool + TLS 就能解决 80% 场景。

text=ZqhQzanResources