C++的std::atomic_flag如何实现一个超轻量级的自旋锁？ (无锁编程实战)

2次阅读

std::atomic_flag比std::atomic更适合自旋锁，因其唯一保证无锁、直接映射cpu原子指令；而std::atomic在部分平台可能退化为加锁实现，且不支持test_and_set()。

std::atomic_flag 为什么比 std::atomic 更适合做自旋锁

因为 std::atomic_flag 是 c++ 标准里唯一保证「无锁（lock-free）」的原子类型，底层可直接映射到 CPU 的 TSET、LDXR/STXR 或 XCHG 指令；而 std::atomic<bool></bool> 在某些平台（比如旧 ARM 或某些嵌入式编译器）可能被实现为加锁的库函数——一旦锁住，就不是自旋锁了，而是退化成阻塞等待。

常见错误现象：std::atomic<bool> test{true}; test.test_and_set()</bool> 编译失败，因为 test_and_set() 不是 std::atomic<bool></bool> 的成员函数——它只属于 std::atomic_flag。

std::atomic_flag 默认初始化为 clear（即 false），必须用 ATOMIC_FLAG_INIT（C++17 起已弃用，推荐用 constexpr 构造）
不支持直接赋值或比较，只能靠 test_and_set() 和 clear()
没有 load()/store()，所以没法“只读检查是否被占用”，必须尝试获取

怎么写一个可用的自旋锁类（带 memory_order 控制）

核心就是两步：循环调用 test_and_set() 直到成功，临界区结束后调用 clear()。但关键在内存序——默认 test_and_set() 是 memory_order_seq_cst，太重；实际只需 acquire/release 语义即可。

使用场景：短临界区（比如保护几个指针赋值、计数器增减）、高争用但平均持有时间极短、不允许线程休眠（实时系统、中断上下文模拟）。

立即学习“C++免费学习笔记（深入）”；

构造时用 constexpr std::atomic_flag flag{ATOMIC_FLAG_INIT}（C++20 起可直接 std::atomic_flag flag{};）
lock() 中用 flag.test_and_set(std::memory_order_acquire) —— 成功时返回旧值（false），失败返回 true，需循环
unlock() 必须用 flag.clear(std::memory_order_release)，否则其他线程看不到临界区内的写操作
别忘了在析构中 clear()，否则若对象被销毁时仍处于 set 状态，后续复用会死锁

class spinlock {     std::atomic_flag flag = ATOMIC_FLAG_INIT; public:     void lock() {         while (flag.test_and_set(std::memory_order_acquire)) {             // 可选：__builtin_ia32_pause() 或 std::this_thread::yield()         }     }     void unlock() {         flag.clear(std::memory_order_release);     } };

为什么空循环自旋不是最优？怎么微调提示 CPU

纯 while(flag.test_and_set(...)) {} 在 x86 上会持续发射 XCHG，不仅耗电，还可能让其他超线程核心饿死；ARM 上更糟，可能触发总线风暴。这不是“轻量”，是“暴力轮询”。

性能影响：在争用激烈但临界区极短的场景下，加 pause/yield 后，实测吞吐能提升 10%~30%，cache miss 减少明显。

x86/x64：在循环体内插一句 __builtin_ia32_pause()（GCC/Clang），或 _mm_pause()（需 <immintrin.h></immintrin.h>）
通用可移植写法：用 std::this_thread::yield()，但注意它不保证暂停，只是提示调度器，开销比 pause 大得多
别用 std::this_thread::sleep_for(1ns)——这是系统调用，完全违背“超轻量”初衷

std::atomic_flag 自旋锁的致命限制和替代思路

它不能递归、不能超时、不感知线程取消、也不通知等待者。一旦临界区里发生 longjmp、异常未捕获、或死循环，整个程序就卡死——因为没地方能“中断”自旋。

容易被忽略的地方：std::atomic_flag 对象若位于多线程共享的全局缓存行（cache line）上，且附近有高频修改的变量，会引发 false sharing。建议用 alignas(64) 对齐，并确保前后无其他热数据。

需要超时？得自己实现带计数的重试 + std::chrono 判断，但已脱离“超轻量”范畴
要支持中断或取消？换 std::mutex，哪怕它重，也比卡死强
临界区超过 10 条指令、或含系统调用（如 read()、malloc）？立刻放弃自旋锁——CPU 在那干等毫无意义

真要用，就把它当成“临界区是几条 mov + add 的硬件级临界保护”，别的都别指望。

发表于：后端开发

近一天内

复制链接

c++中的PCH(预编译头)是什么，怎么用_c++预编译头文件PCH作用与配置方法

C++中的对象切片（Object Slicing）是什么？（如何避免）

.NET怎么获取当前程序的运行内存和CPU占用

如何用向量化方式为二维图像数组批量赋值（基于坐标、时间戳与极性）

mysql索引碎片对性能有影响吗_mysql索引优化方法

C++的std::atomic_flag如何实现一个超轻量级的自旋锁？ (无锁编程实战)

std::atomic_flag 为什么比 std::atomic 更适合做自旋锁

怎么写一个可用的自旋锁类（带 memory_order 控制）

为什么空循环自旋不是最优？怎么微调提示 CPU

std::atomic_flag 自旋锁的致命限制和替代思路

如何高效批量插入一百万行数据到 Laravel 数据库

如何在 Go 中向字符串追加字节（byte）？

composer如何优化生产环境加载_composer dump-autoload -o【指南】

vsftpd 500 OOPS: vsftpd: refusing to run with writable root 的 chroot 配置

mysql如何优化复合索引顺序_mysql复合索引顺序优化

C# XmlSerializer XmlRoot 指定根元素名称

如何在 Go 项目中正确导入并使用 golang.org/x/net/html

HTML怎么创建注册页面_HTML signup form教程【用户】

如何实现子容器滚动触发动画效果（JavaScript 原生方案）

如何在页面跳转后持久化保存用户选择的下拉项值