
本文介绍如何将形如 `{block: {text: {key: value}}}` 的三层嵌套字典高效转换为具有 multiindex 列(如 `text1 → key1`)的结构化 dataframe,适用于配置解析、实验结果汇总等场景。
要将深度为三层的嵌套字典(block → text → key)转化为符合需求的表格形式,核心在于重构索引层级与展平嵌套结构。原始代码 pd.DataFrame(data) 会直接将最外层键(block1, block2)作为列,导致结构错位;正确做法是先转置使 blocks 成为行索引,再对每个 text 子字典进行标准化展开。
以下是完整、健壮的实现方案:
import pandas as pd data = { "block1": { "text1": {"key1": "value1", "key2": "value2"}, "text2": {"key1": "value3", "key2": "value4"}, }, "block2": { "text1": {"key1": "value5", "key2": "value6"}, "text2": {"key1": "value7", "key2": "value8"}, }, } # 步骤 1:转置,使 block 变为行索引(而非列) df_temp = pd.DataFrame(data).T # 步骤 2:对每个 text 列(如 'text1', 'text2')应用 json_normalize,展平其内部字典 # 注意:json_normalize 要求输入为 list of dict,因此需包装为 [d] 形式 normalized_parts = [ pd.json_normalize([df_temp.loc[block, text]]) # 对每个 block+text 提取并归一化 for block in df_temp.index for text in df_temp.columns ] # 更推荐的简洁写法(与原答案一致,但更清晰): dfs_by_text = [pd.json_normalize(df_temp[text]) for text in df_temp.columns] combined = pd.concat(dfs_by_text, axis=1) # 步骤 3:重设行索引为原始 block 名,并构建 MultiIndex 列 combined.index = df_temp.index keys = ["key1", "key2"] # 假设所有 text 下 key 结构一致;若不固定,可动态提取:list(df_temp.iloc[0,0].keys()) combined.columns = pd.MultiIndex.from_product([df_temp.columns, keys]) # 最终结果 print(combined)
输出效果如下(自动对齐,支持 .to_html() 渲染为带分组表头的 html 表格):
text1 text2 key1 key2 key1 key2 block1 value1 value2 value3 value4 block2 value5 value6 value7 value8
✅ 注意事项:
- pd.json_normalize 要求子字典结构严格一致(即所有 textX 下必须包含完全相同的 key 集合),否则缺失值将自动填充为 NaN;
- 若 key 不固定,建议先遍历 data 动态收集全部 key(如 set(k for b in data.values() for t in b.values() for k in t.keys()));
- 此方法天然支持任意数量的 block 和 text,扩展性强,无需硬编码列名;
- 如需导出为 excel 并保留多级表头,可直接使用 combined.to_excel(“output.xlsx”) —— Pandas 会自动渲染层级。
该方案兼顾可读性、健壮性与工程实用性,是处理配置型嵌套数据的标准范式。