固定块内存池最常用,通过预分配大内存并用原子操作管理空闲链表实现线程安全;多级池支持多种尺寸;TLS缓存降低竞争;需补充构造/析构、对齐、统计及STL适配。

用 c++ 实现一个轻量、高效、线程安全的内存池,核心是避免频繁调用 new/delete 或 malloc/free,通过预分配大块内存 + 自管理空闲链表来加速小对象分配。不依赖第三方库,适合高频创建/销毁固定大小对象的场景(如游戏实体、网络包、日志节点等)。
一、固定块内存池(Fixed-Size Pool)——最常用、最易控
适用于对象大小统一(如 64 字节消息头、128 字节缓冲区)。原理:一次性 malloc 一大块连续内存,切分为等长“槽位”,用单向链表串联所有空闲槽,分配即取表头,回收即插回表头。
- 用
char*指针管理原始内存,避免构造/析构干扰(仅分配,不调用 ctor/dtor) - 空闲链表节点复用槽位本身:每个空闲槽的前 8 字节(x64)存下一个空闲槽地址
- 分配时原子读-改-写(
std::atomic)保证多线程安全,无需锁 - 示例关键片段:
class FixedPool { char* _memory; std::atomic<char*> _free_list{nullptr}; size_t _block_size; size_t _capacity; <p>public: FixedPool(size_t block_sz, size_t n_blocks) : _block_size{block_sz}, _capacity{n_blocks} { _memory = static_cast<char<em>>(malloc(_block_size </em> n_blocks)); // 构建空闲链表:从高地址往低地址连(避免 cache 颠簸) char<em> ptr = _memory + _block_size </em> n_blocks; for (size_t i = 0; i < n_blocks; ++i) { ptr -= _block_size; *reinterpret_cast<char**>(ptr) = _free_list.load(); _free_list.store(ptr); } }</p><pre class="brush:php;toolbar:false;">void* allocate() { char* node = _free_list.load(); while (node && !_free_list.compare_exchange_weak(node, *reinterpret_cast<char**>(node))) {} return node; } void deallocate(void* p) { if (!p) return; char* node = static_cast<char*>(p); char* expected; do { expected = _free_list.load(); *reinterpret_cast<char**>(node) = expected; } while (!_free_list.compare_exchange_weak(expected, node)); }
};
二、多级池(Multi-Slab Pool)——支持多种尺寸,兼顾灵活性与性能
当需分配不同大小对象(如 32B/64B/128B/256B)时,可为每种尺寸维护一个独立 fixed pool,统一封装为 MultiSlabPool。按 size 向上取整到最近的“档位”,查表分发。
立即学习“C++免费学习笔记(深入)”;
- 档位设计建议:32, 64, 128, 256, 512, 1024, 2048(覆盖常见小对象)
- 分配时先做 size 判断(if-else 链 or constexpr map),避免虚函数或 map 查找开销
- 每个子池独立管理,互不影响;总内存用量可控,无外部碎片(但有内部碎片)
- 不实现自动扩容,超限可 fallback 到 malloc(或抛异常,视业务而定)
三、线程局部缓存(Thread-Local Cache)——进一步减少竞争
在多线程高频分配场景下,即使用了原子操作,compare_exchange 仍可能因 cache line bouncing 造成性能瓶颈。引入 TLS 缓存层:每个线程私有小栈(如 16 个指针),满时批量归还给全局池,缺时批量申请。
- 用
thread_local std::vector<void></void>或自定义定长栈(更省内存) - 分配优先查 TLS 栈,空再向全局池要;回收优先压入 TLS 栈,满再批量交还
- 显著降低原子操作频率,实测在 8 线程下比纯全局池吞吐提升 3–5×
- 注意:TLS 栈需在 thread exit 时清空归还,避免内存泄漏(可用
thread_local析构函数或 at_thread_exit)
四、关键增强点(项目落地必备)
真实项目中还需补全这些能力,才能替代 new/delete:
- 构造/析构支持:提供
construct<t>(args...)</t>和destroy<t>(ptr)</t>,用 placement new / explicit dtor 调用 - 对齐控制:分配时按
alignof(T)对齐,可在 block 头预留 padding,或用std::aligned_alloc(C++17)申请底层内存 - 统计与调试:记录已分配数、峰值、碎片率;启用宏开关,支持分配堆栈捕获(__builtin_return_address)
- STL 容器适配:实现
std::allocator接口,让std::vector<t myalloc>></t>等无缝使用
基本上就这些。不复杂但容易忽略的是:别过早优化——先 profile 确认内存分配真是瓶颈;固定池够用就别上多级;线程缓存带来收益也增加复杂度,评估线程数和分配频次再决定。项目初期用 fixed pool + TLS 就能解决 80% 场景。