Python Python 对象缓存机制解析

2次阅读

python缓存-5至256的小整数及编译期可见的短字符串(如”hello”),使其复用同一对象,故is返回true;而==比较值,更安全可靠。

Python Python 对象缓存机制解析

Python 的小整数和短字符串缓存

Python 为了提升性能,对一部分常用的小整数和短字符串做了对象复用——不是每次创建都分配新内存,而是从内部缓存池中直接返回已有对象。比如 -5 到 256 范围内的整数(CPython 实现),无论你写多少次 1000256,它们都指向同一个对象。同理,符合标识符规则的短字符串(如 "hello""_a1")在编译期可能被驻留(interned),后续相同字面量会复用同一对象。

为什么 is== 在这里表现不同

is 比较的是对象身份(内存地址),== 比较的是值相等。缓存机制让多个相同小整数或驻留字符串共享一个对象,所以:

  • 100 is 100True(缓存生效,同一对象)
  • 1000 is 1000 → 在交互式环境里可能是 True(因常量折叠),但严格来说不保证;在函数中通常为 False
  • "abc" is "abc" → 大概率 True(编译期驻留)
  • "ab"+"c" is "abc" → 可能 True(编译优化),但 "ab".join("c") is "abc" 一般为 False(运行时构造,未驻留)

哪些对象会被缓存?哪些不会?

缓存行为取决于 Python 实现(主要是 CPython)和上下文,并非语言规范强制要求:

  • 确定缓存的:-5 ~ 256 的整数(启动即存在)
  • 可能缓存的:编译期可见的字符串字面量(满足 str.isidentifier() or str.isalnum() 等条件时更易被驻留)
  • 不缓存的:浮点数(1.0 is 1.0 是 True 仅因编译器常量折叠,不是缓存)、列表、字典、自定义类实例、运行时拼接/生成的字符串(除非显式调用 sys.intern()

如何查看和控制字符串驻留

你可以用 sys.intern() 强制将字符串加入驻留池,之后相同内容的 interned 字符串会共享对象:

立即学习Python免费学习笔记(深入)”;

  • import sys; a = sys.intern("hello world"); b = sys.intern("hello world"); a is b → True
  • 注意:不要对任意用户输入频繁 intern,它会持续占用内存且不可清理
  • 检查是否已驻留:没有直接 API,但可通过 id(s) 对比或尝试 sys.intern(s) is s(前提是 s 已是字符串)

实际开发中要注意什么

缓存是实现细节,不是语言契约。依赖 is 判断数值或字符串相等是危险的:

  • 永远用 == 判断值相等,尤其是数字和字符串
  • is 只应用于单例检查(is Noneis Trueis False)或明确需要对象同一性时
  • 测试时避免用 is 断言字面量相等,否则可能在不同版本或环境下失败
  • 理解缓存有助于读懂 id()is 的输出,但不应让它影响逻辑设计
text=ZqhQzanResources