Python 局部变量为何访问更快

1次阅读

局部变量访问快是因为通过帧的fastlocals数组直接按索引取值,无需字典哈希查找;LOAD_FAST指令对应编译期确定的偏移量,而全局、自由或动态变量需LOAD_GLOBAL/LOAD_DEREF或字典查找,开销更大。

Python 局部变量为何访问更快

局部变量查找走的是帧的快速索引,不是字典查找

python 解释器在执行函数时会为它创建一个独立的栈帧(frame),其中局部变量不存于 __dict__ 或全局命名空间字典里,而是直接分配在栈帧对象f_locals 数组(实际是 C 层的 fastlocals)中。访问时通过固定偏移量直接取值,跳过了哈希计算和字典键比对。

这和全局变量或自由变量形成鲜明对比:全局变量要查 globals() 字典,自由变量(闭包中的外层变量)要查 cell 对象再间接取值,都涉及至少一次哈希查找。

  • LOAD_FAST 指令用于局部变量,底层是 C 数组下标访问
  • LOAD_GLOBAL 指令需调用 PyDict_GetItem,有哈希 + 键比较开销
  • 哪怕只多一层作用域(比如嵌套函数里读外层变量),也触发 LOAD_DEREF,性能明显下降

使用 dis 能直观看到指令差异

你可以用 dis.dis() 查看字节码,确认变量是否走 LOAD_FAST

import dis 

def f(): x = 1 return x + 1

dis.dis(f)

立即学习Python免费学习笔记(深入)”;

输出中你会看到:

2 0 LOAD_CONST 1 (1)

2 STORE_FAST 0 (x)

4 LOAD_FAST 0 (x)

6 LOAD_CONST 1 (1)

8 BINARY_ADD

10 RETURN_VALUE

注意 STORE_FASTLOAD_FAST 的操作数是数字索引(如 0),不是变量名字符串 —— 这就是编译期就确定好的位置。

  • 如果变量被 execevallocals() 动态读取,Python 会禁用 fastlocals,退化为字典查找
  • nonlocalglobal 声明会让变量退出 fastlocal 范围,改用 LOAD_DEREFLOAD_GLOBAL

循环内频繁访问变量,局部化收益最明显

在密集计算或长循环中,局部变量的访问优势会被放大。比如下面两段代码的实际耗时可能差 15%~25%:

# 慢:全局查找 LIMIT = 1000000 total = 0 for i in range(LIMIT):     total += i * 2 

快:提升到局部作用域

def calc(): LIMIT = 1000000 total = 0 for i in range(LIMIT): total += i * 2 return total

这不是因为“局部变量本身更快”,而是因为循环体内的每次 iLIMITtotal 访问都省掉了字典操作。

  • 即使只是把常量赋给局部变量(如 func = some_module.some_func),再在循环里调用,也能减少属性查找开销
  • 但别过度优化:如果逻辑清晰性受损,或变量生命周期本就不该局限在函数内,强行局部化反而增加维护成本

真正拖慢速度的往往不是变量访问,而是隐式作用域泄漏

很多人以为“把变量放函数里就自动快了”,却忽略了更关键的陷阱:比如在类方法中反复访问 self.xxx,这本质是属性查找(LOAD_ATTR),比局部变量慢得多;又比如在循环里写 for x in obj.items() 却没把 obj.items 提前绑定为局部变量。

  • self.attr → 触发 __getattribute__ 链,可能含描述符、Property 等开销
  • module.func → 每次都要查模块字典 + 属性缓存未命中时更慢
  • 真正该优先局部化的,是那些在循环/递归高频路径上被反复读写的名称

局部变量快的本质,是 Python 把“确定存在且生命周期明确”的变量,交由最轻量的内存访问机制处理。但这个优势,很容易被一次不经意的属性访问、闭包捕获或动态作用域操作抹平。

text=ZqhQzanResources