C++的std::atomic_flag如何实现一个超轻量级的自旋锁? (无锁编程实战)

2次阅读

std::atomic_flag比std::atomic更适合自旋锁,因其唯一保证无锁、直接映射cpu原子指令;而std::atomic在部分平台可能退化为加锁实现,且不支持test_and_set()。

C++的std::atomic_flag如何实现一个超轻量级的自旋锁? (无锁编程实战)

std::atomic_flag 为什么比 std::atomic 更适合做自旋锁

因为 std::atomic_flagc++ 标准里唯一保证「无锁(lock-free)」的原子类型,底层可直接映射到 CPU 的 TSETLDXR/STXRXCHG 指令;而 std::atomic<bool></bool> 在某些平台(比如旧 ARM 或某些嵌入式编译器)可能被实现为加锁的库函数——一旦锁住,就不是自旋锁了,而是退化成阻塞等待。

常见错误现象:std::atomic<bool> test{true}; test.test_and_set()</bool> 编译失败,因为 test_and_set() 不是 std::atomic<bool></bool>成员函数——它只属于 std::atomic_flag

  • std::atomic_flag 默认初始化为 clear(即 false),必须用 ATOMIC_FLAG_INIT(C++17 起已弃用,推荐用 constexpr 构造)
  • 不支持直接赋值或比较,只能靠 test_and_set()clear()
  • 没有 load()/store(),所以没法“只读检查是否被占用”,必须尝试获取

怎么写一个可用的自旋锁类(带 memory_order 控制)

核心就是两步:循环调用 test_and_set() 直到成功,临界区结束后调用 clear()。但关键在内存序——默认 test_and_set()memory_order_seq_cst,太重;实际只需 acquire/release 语义即可。

使用场景:短临界区(比如保护几个指针赋值、计数器增减)、高争用但平均持有时间极短、不允许线程休眠(实时系统、中断上下文模拟)。

立即学习C++免费学习笔记(深入)”;

  • 构造时用 constexpr std::atomic_flag flag{ATOMIC_FLAG_INIT}(C++20 起可直接 std::atomic_flag flag{};
  • lock() 中用 flag.test_and_set(std::memory_order_acquire) —— 成功时返回旧值(false),失败返回 true,需循环
  • unlock() 必须用 flag.clear(std::memory_order_release),否则其他线程看不到临界区内的写操作
  • 别忘了在析构中 clear(),否则若对象被销毁时仍处于 set 状态,后续复用会死锁
class spinlock {     std::atomic_flag flag = ATOMIC_FLAG_INIT; public:     void lock() {         while (flag.test_and_set(std::memory_order_acquire)) {             // 可选:__builtin_ia32_pause() 或 std::this_thread::yield()         }     }     void unlock() {         flag.clear(std::memory_order_release);     } };

为什么空循环自旋不是最优?怎么微调提示 CPU

while(flag.test_and_set(...)) {} 在 x86 上会持续发射 XCHG,不仅耗电,还可能让其他超线程核心饿死;ARM 上更糟,可能触发总线风暴。这不是“轻量”,是“暴力轮询”。

性能影响:在争用激烈但临界区极短的场景下,加 pause/yield 后,实测吞吐能提升 10%~30%,cache miss 减少明显。

  • x86/x64:在循环体内插一句 __builtin_ia32_pause()(GCC/Clang),或 _mm_pause()(需 <immintrin.h></immintrin.h>
  • 通用可移植写法:用 std::this_thread::yield(),但注意它不保证暂停,只是提示调度器,开销比 pause 大得多
  • 别用 std::this_thread::sleep_for(1ns)——这是系统调用,完全违背“超轻量”初衷

std::atomic_flag 自旋锁的致命限制和替代思路

它不能递归、不能超时、不感知线程取消、也不通知等待者。一旦临界区里发生 longjmp、异常未捕获、或死循环,整个程序就卡死——因为没地方能“中断”自旋。

容易被忽略的地方:std::atomic_flag 对象若位于多线程共享的全局缓存行(cache line)上,且附近有高频修改的变量,会引发 false sharing。建议用 alignas(64) 对齐,并确保前后无其他热数据。

  • 需要超时?得自己实现带计数的重试 + std::chrono 判断,但已脱离“超轻量”范畴
  • 要支持中断或取消?换 std::mutex,哪怕它重,也比卡死强
  • 临界区超过 10 条指令、或含系统调用(如 read()malloc)?立刻放弃自旋锁——CPU 在那干等毫无意义

真要用,就把它当成“临界区是几条 mov + add 的硬件级临界保护”,别的都别指望。

text=ZqhQzanResources