如何深度智能合并两个嵌套结构不同的 dict

11次阅读

深度智能合并dict需按语义对齐键路径、依类型动态选择策略并处理冲突。通过path_mapping映射同义路径,对dict递归、list去重拼接、标量覆盖,支持钩子定制逻辑,并返回结构化结果与冲突日志。

如何深度智能合并两个嵌套结构不同的 dict

深度智能合并两个嵌套结构不同的 dict,核心在于**按语义而非结构对齐键路径、区分覆盖/累积/递归策略,并处理类型冲突**。不能简单用 update()|,需自定义逻辑。

识别键路径语义,而非硬匹配结构

两个 dict 可能用不同层级表达同一含义。例如:

dict_a = {"user": {"profile": {"name": "Alice", "age": 30}}} dict_b = {"person": {"info": {"name": "Bob", "city": "NYC"}}}

若业务上 "user""person""profile""info",就需预定义映射规则,而非只比对键名。建议在合并前传入一个 path_mapping 字典:

  • {"user": "person", "profile": "info"} 表示路径重定向
  • 运行时将 dict_a["user"]["profile"] 视为与 dict_b["person"]["info"] 同域
  • 未映射的键仍按原名匹配,避免过度耦合

值类型动态选择合并策略

相同路径下值类型不同时,强制覆盖会丢信息,盲目递归可能报错。应分情况处理:

  • dict + dict → 递归合并:逐键深入,支持嵌套对齐
  • list + list → 智能去重拼接:如按 "id" 去重,或保留全部(可配选项)
  • str/int/bool/None + 同类 → 以右值为准(默认覆盖),但可设 keep_left=True 反之
  • dict + list / str 等 → 触发类型冲突警告,返回 ConflictValue(left, right) 占位,供上层决策

支持用户自定义合并钩子(hook)

对特定路径(如 "metadata.timestamp"),你可能希望取最大值而非覆盖;对 "tags" 希望做集合并。可通过注册钩子实现:

  • 定义函数 def merge_timestamps(a, b): return max(a, b)
  • 注册 hooks[("metadata", "timestamp")] = merge_timestamps
  • 递归过程中遇到该路径时,跳过默认逻辑,直接调用钩子
  • 钩子可返回 SKIP 表示忽略右值,或 RaiSE 强制中断

保留原始结构 + 冲突可视化

智能合并不是“抹平差异”,而是清晰呈现融合结果与分歧点:

  • 输出结果 dict 保持左 dict 的主干结构,仅在必要处插入/更新
  • 额外返回 conflict_log:列表,每项含 pathleft_typeright_typeaction_taken
  • 支持 dry_run=True 模式:只输出 log,不修改任何数据
  • 便于审计、回滚、或生成 patch diff

不复杂但容易忽略。关键是把“合并”看作带业务规则的数据对齐过程,而不是纯语法操作。

text=ZqhQzanResources