将嵌套字典(三层)转换为带多级列索引的 Pandas 表格

10次阅读

将嵌套字典(三层)转换为带多级列索引的 Pandas 表格

本文介绍如何将形如 `{block: {text: {key: value}}}` 的三层嵌套字典高效转换为具有 multiindex 列(如 `text1 → key1`)的结构化 dataframe,适用于配置解析、实验结果汇总等场景。

要将深度为三层的嵌套字典(block → text → key)转化为符合需求的表格形式,核心在于重构索引层级展平嵌套结构。原始代码 pd.DataFrame(data) 会直接将最外层键(block1, block2)作为列,导致结构错位;正确做法是先转置使 blocks 成为行索引,再对每个 text 子字典进行标准化展开。

以下是完整、健壮的实现方案:

import pandas as pd  data = {     "block1": {         "text1": {"key1": "value1", "key2": "value2"},         "text2": {"key1": "value3", "key2": "value4"},     },     "block2": {         "text1": {"key1": "value5", "key2": "value6"},         "text2": {"key1": "value7", "key2": "value8"},     }, }  # 步骤 1:转置,使 block 变为行索引(而非列) df_temp = pd.DataFrame(data).T  # 步骤 2:对每个 text 列(如 'text1', 'text2')应用 json_normalize,展平其内部字典 # 注意:json_normalize 要求输入为 list of dict,因此需包装为 [d] 形式 normalized_parts = [     pd.json_normalize([df_temp.loc[block, text]])  # 对每个 block+text 提取并归一化     for block in df_temp.index     for text in df_temp.columns ]  # 更推荐的简洁写法(与原答案一致,但更清晰): dfs_by_text = [pd.json_normalize(df_temp[text]) for text in df_temp.columns] combined = pd.concat(dfs_by_text, axis=1)  # 步骤 3:重设行索引为原始 block 名,并构建 MultiIndex 列 combined.index = df_temp.index keys = ["key1", "key2"]  # 假设所有 text 下 key 结构一致;若不固定,可动态提取:list(df_temp.iloc[0,0].keys()) combined.columns = pd.MultiIndex.from_product([df_temp.columns, keys])  # 最终结果 print(combined)

输出效果如下(自动对齐,支持 .to_html() 渲染为带分组表头的 html 表格):

text1           text2                   key1    key2    key1    key2 block1  value1  value2  value3  value4 block2  value5  value6  value7  value8

注意事项

  • pd.json_normalize 要求子字典结构严格一致(即所有 textX 下必须包含完全相同的 key 集合),否则缺失值将自动填充为 NaN;
  • 若 key 不固定,建议先遍历 data 动态收集全部 key(如 set(k for b in data.values() for t in b.values() for k in t.keys()));
  • 此方法天然支持任意数量的 block 和 text,扩展性强,无需硬编码列名;
  • 如需导出为 excel 并保留多级表头,可直接使用 combined.to_excel(“output.xlsx”) —— Pandas 会自动渲染层级。

该方案兼顾可读性、健壮性与工程实用性,是处理配置型嵌套数据的标准范式。

text=ZqhQzanResources