Pandas 中高效筛选嵌套字典列的行数据

1次阅读

Pandas 中高效筛选嵌套字典列的行数据

本文介绍如何在 pandas DataFrame 中对存储字典的 Series 列进行条件过滤,重点讲解 str.get() 方法与列表推导式的实用技巧,并对比性能与可读性差异。

本文介绍如何在 pandas dataframe 中对存储字典的 series 列进行条件过滤,重点讲解 `str.get()` 方法与列表推导式的实用技巧,并对比性能与可读性差异。

在实际数据分析中,常会遇到结构化程度不一的数据——例如某列(如 location)并非标量类型,而是包含字典的混合对象。这类“嵌套字典列”无法直接通过 df[‘col’][‘key’] 进行向量化索引(因 df[‘Location’][‘State’] 会尝试对整个 Series 取键 ‘State’,引发 KeyError 或 TypeError)。正确做法是将字典访问操作向量化地作用于每个元素

✅ 推荐方案:Series.str.get() + 布尔索引

str.get() 是 Pandas 为类字符串/类映射对象(如 dict、None 安全)提供的向量化访问方法,专为处理此类嵌套结构设计:

import pandas as pd  df = pd.DataFrame({     'Name': ['Alice', 'Bob', 'Aritra'],     'Age': [25, 30, 35],     'Location': [         {'City': 'Seattle', 'State': 'WA'},         {'City': 'New York', 'State': 'NY'},         {'City': 'Albany', 'State': 'NY'}     ] })  # 筛选 State == 'NY' 的所有行 filtered = df[df['Location'].str.get('State') == 'NY'] print(filtered)

输出:

Name  Age                             Location 1     Bob   30  {'City': 'New York', 'State': 'NY'} 2  Aritra   35    {'City': 'Albany', 'State': 'NY'}

? 优势说明

  • str.get(‘State’) 自动对 Location 列每个字典调用 .get(‘State’),返回 Series;
  • 若某字典缺失 ‘State’ 键,.get() 默认返回 None(安全),避免 KeyError;
  • 支持链式调用(如 str.get(‘address’).str.get(‘zip’) 处理多层嵌套);
  • 完全向量化,性能优于 Python 循环

⚙️ 替代方案:列表推导式(适合复杂逻辑或调试)

当需要更灵活的判断逻辑(如多条件、默认值处理、异常捕获)时,可使用列表推导式构建布尔掩码:

mask = [d.get('State') == 'NY' for d in df['Location']] filtered = df[mask]

该写法语义清晰,易于调试,但非向量化,在大数据集上性能显著低于 str.get()。仅建议用于小规模数据或逻辑高度定制化场景。

⚠️ 注意事项与最佳实践

  • 避免 apply(Lambda x: x[‘State’]):虽能工作,但性能差且不处理缺失键(遇 KeyError 会中断);
  • str.get() 比 str[] 更安全:df[‘Location’].str[‘State’] 在部分版本中可能失效或抛异常;
  • 空值/None 处理:str.get(‘State’, ‘UNKNOWN’) 可指定默认值,增强鲁棒性;
  • 类型检查(进阶):若列中混有非字典值(如 None, str, list),建议先清洗:
    df['Location'] = df['Location'].apply(lambda x: x if isinstance(x, dict) else {})

掌握 str.get() 是处理 Pandas 中嵌套结构数据的关键技能——它让字典列像普通列一样参与高效布尔索引,兼顾简洁性、安全性与性能。

text=ZqhQzanResources