Golang基准测试中的原子操作与互斥锁性能对标

1次阅读

原子操作与互斥锁性能对比需确保共享状态隔离、每次迭代重置，避免缓存污染和竞争干扰；atomic读极快但无跨字段一致性，高争用时因伪共享可能比mutex更慢；go 1.21+推荐用atomic.int64类型替代裸指针操作。

直接写 Benchmark 函数时，必须确保两种实现处理的是同一份共享状态，且每次迭代都重置；否则结果会因缓存、初始值残留或竞争干扰而失真。常见错误是把 sync.Mutex 和 atomic 操作混在同一个变量上测，或者没用 b.ResetTimer() 排除 setup 开销。

读多写少场景下，atomic.LoadInt64 几乎无开销，而 mutex 即使只读也要抢锁、进内核（尤其在高争用时）。但注意：如果读操作需要多个字段强一致性（比如 x 和 y 要同时读到“配对”的旧值或新值），atomic 单独用就不可靠了——它不提供跨变量的原子性。

atomic.LoadInt64 是单指令，通常编译为 mov 或 ldxr，延迟在纳秒级
mutex.RLock()（如果用了 RWMutex）比普通 Lock() 快，但仍涉及 CAS、队列管理等，争用严重时可能几十纳秒起步
纯读场景用 atomic 更快，但一旦要读+校验+条件写（比如“如果值为 0 才设为 1”），就得切回 atomic.CompareAndSwapInt64 或锁

不是原子操作本身慢，而是争用太狠时，CPU 缓存行反复失效（false sharing）或总线仲裁排队造成的。尤其当多个 goroutine 频繁更新相邻的 int64 字段（比如结构体里没 padding），它们落在同一缓存行，每次写都会让其他 core 的副本失效。

用 go tool trace 看 runtime.usleep 或 sync.runtime_SemacquireMutex 占比，能区分是锁等待还是原子忙等
给原子变量前后加 [12]byte 填充，隔离缓存行，常能提升 2–5 倍吞吐
atomic.AddInt64 底层是 lock xadd（x86）或 stlxr（ARM），在 L1 cache 命中时快，跨 socket 或 cache miss 时延迟飙升
如果写操作占比超过 15%，且 goroutine 数远超 CPU 核数，sync.Mutex 可能更稳——它会休眠而非自旋

直接用 atomic.Int64 类型，调它的 Load/Store/Add 方法，比裸指针 + unsafe.Pointer 更安全、可读、且编译器能更好优化。老写法容易漏掉 atomic 语义，比如误用 *int64 直接读写。

声明：var counter atomic.Int64，而不是 var counter int64 加 unsafe.Pointer(&counter)
读写：counter.Load() / counter.Store(100) / counter.Add(1)，全部类型安全，无需强制转换
注意：不能对 atomic.Int64 取地址传给 C 函数或 syscall，它内部有额外字段；需用 counter.Load() 拿值再传
性能和裸 atomic.*Int64 函数几乎一致，但少了手写错误风险，比如把 atomic.AddInt64(&x, 1) 写成 &x+1

实际跑出来，原子操作快不快，取决于你的数据布局、CPU 架构、goroutine 调度密度，而不是“原子一定比锁快”这种笼统说法。最容易被忽略的是 false sharing 和跨 NUMA 节点访问——这两点一出，atomic 的优势立刻打折扣。

发表于：后端开发

近一天内

复制链接

JavaScript 中动态将用户数据以姓名为键存入对象的完整实现方法

HTML5怎样调用JS插件做回到顶部按钮_隐藏技巧省代码法【技巧】