如何让一个类支持 len(obj) 但实际长度由外部计算

10次阅读

__len__ 必须返回非负整数且不能懒计算,因其被 len() 强制调用并要求即时返回 int;可行方案是用实例属性缓存长度,由外部显式更新,__len__ 仅透传该值。

如何让一个类支持 len(obj) 但实际长度由外部计算

为什么 __len__ 必须返回 int 且不能懒计算

len() 的底层调用强制要求 __len__ 返回非负整数,且不能是 None 或延迟对象(比如 functools.cached_property 包裹的函数)。一旦返回值不是 int,就会抛出 TypeError: Object of type 'X' has no len()。更关键的是,__len__ 在每次 len(obj) 调用时都会执行——它天然不缓存,也不支持“外部计算后注入”的语义。

用属性代理 + 外部更新模拟“外部计算长度”

真正可行的做法是:把长度值存在实例属性里,由外部逻辑负责设置;__len__ 只做透传。这规避了协议限制,也符合“实际长度由外部计算”的需求。

  • __len__ 内直接返回一个实例变量(如 self._cached_len),不参与计算
  • 外部代码在需要时调用类似 obj._update_Length() 或直接赋值 obj._cached_len = compute_real_length(obj)
  • 如果想防止误用,可加一层检查:if not hasattr(self, '_cached_len'): raise RuntimeError("length not initialized")
  • 注意:该方案不自动同步,外部必须显式更新,否则 len(obj) 返回过期值

避免踩坑:不要在 __len__ 里调用外部函数

常见错误是试图在 __len__ 中触发网络请求、查数据库或遍历大文件——这会让所有依赖 len() 的代码(比如 if obj:for 循环判断、list(obj))变得不可预测且极慢。

  • python 很多内置行为隐式调用 len(),例如 bool(obj) 在未定义 __bool__ 时会 fallback 到 len(obj) != 0
  • 第三方库(如 Pydantic、numpy、Django ORM)也可能在序列化或验证时读取 len()
  • 若外部计算成本高,应在业务逻辑层主动缓存结果,再写入 _cached_len,而不是塞进 __len__

示例:带手动刷新的可长度化容器

class LazyLenList:     def __init__(self, items):         self.items = items         self._cached_len = None  # 初始未计算 
def __len__(self):     if self._cached_len is None:         raise ValueError("length not computed yet. Call update_length() first.")     return self._cached_len  def update_length(self):     # 外部计算逻辑放这里,比如过滤、IO、聚合等     self._cached_len = len([x for x in self.items if x > 0])  # 示例:只算正数

使用时必须先调用 obj.update_length(),再用 len(obj) —— 这个控制权交给了使用者,也明确了“长度非实时”的契约。

真正难的不是实现,而是让所有协作者意识到:这个 len() 不是自洽的,它依赖外部状态同步。漏掉一次 update_length(),后续所有基于长度的判断都可能错。

text=ZqhQzanResources