Pydantic 中自定义对象作为默认参数时未自动深拷贝的解决方案

7次阅读

Pydantic 中自定义对象作为默认参数时未自动深拷贝的解决方案

Pydantic 仅对不可哈希(unhashable)类型的默认值执行实例级深拷贝,而用户自定义类默认是可哈希的,因此 Spam() 这类对象会被共享;正确做法是改用 Field(default_factory=…) 确保每次实例化都生成独立副本。

pydantic 仅对**不可哈希(unhashable)类型**的默认值执行实例级深拷贝,而用户自定义类默认是可哈希的,因此 `spam()` 这类对象会被共享;正确做法是改用 `field(default_factory=…)` 确保每次实例化都生成独立副本。

在 Pydantic 模型中,为字段指定默认值时,若该值是可变对象(如 list, dict, 或自定义类实例),开发者常期望每次创建新模型实例时,该字段都获得一个独立的副本,避免状态意外共享。Pydantic 确实为此提供了保障——但有一个关键前提:它仅对不可哈希(unhashable)对象自动触发深拷贝。

Python 规定:所有用户自定义类的实例默认是可哈希的(只要未显式定义 __hash__ = None 或实现冲突的 __eq__/__hash__),而 Pydantic 的深拷贝机制正是依据 hash() 是否抛出 TypeError 来判断是否需要深拷贝。这意味着:

  • ✅ list = []、dict = {} 等内置可变类型不可哈希 → Pydantic 自动深拷贝 → 每个实例拥有独立列表;
  • ❌ Spam() 实例默认可哈希 → Pydantic 跳过深拷贝 → 所有实例共享同一对象引用。

这解释了原代码中 obj1.item.names.append(“bye”) 同时影响 obj2.item.names 的现象,以及 id(obj1.item) == id(obj2.item) 返回 True 的原因——它们指向同一个 Spam 实例。

正确解法:使用 default_factory

应弃用直接赋值的默认参数(item: Spam = Spam()),改用 Field(default_factory=…),由 Pydantic 在每次实例化时惰性调用工厂函数,确保对象严格隔离:

from pydantic import BaseModel, ConfigDict, Field  class Spam:     def __init__(self) -> None:         self.names = ["hi"]  class Person(BaseModel):     model_config = ConfigDict(arbitrary_types_allowed=True)      item: Spam = Field(default_factory=Spam)  # ✅ 每次新建 Person 都调用 Spam()     lst: list = []  # ✅ list 默认仍被深拷贝(因不可哈希)

运行效果验证:

obj1 = Person() obj2 = Person()  obj1.lst.append(10) obj1.item.names.append("bye")  print(obj1.lst)        # [10] print(obj1.item.names) # ['hi', 'bye'] print(obj2.lst)        # [] print(obj2.item.names) # ['hi'] ← 独立副本! print(id(obj1.item) == id(obj2.item))  # False

注意事项与最佳实践

  • ⚠️ 不要依赖 __deepcopy__:即使你实现了 __deepcopy__,只要对象可哈希,Pydantic 就不会调用它。该方法仅在对象被判定为需深拷贝时才生效。
  • ⚠️ 避免可变默认参数陷阱:item: Spam = Spam() 是典型的“危险默认值”写法,在 Pydantic 和纯 Python 函数中均应规避。
  • 优先使用 default_factory:对任意可变对象(包括自定义类、嵌套结构、带初始化逻辑的对象),Field(default_factory=…) 是最清晰、最可靠的方式。
  • ? 若需深度定制拷贝行为:可在 Spam 中保留 __deepcopy__,但必须配合 default_factory 使用,此时它会在 Spam 被其他支持深拷贝的上下文(如手动 deepcopy())调用,而非由 Pydantic 主动触发。

综上,Pydantic 的深拷贝策略是务实且符合 Python 类型哲学的:它不强行干预可哈希对象的语义,而是将控制权交还给开发者——通过 default_factory 显式声明“此处需新实例”,从而兼顾性能、安全与可预测性。

text=ZqhQzanResources