Pandas 中高效筛选嵌套字典列的行数据

1次阅读

本文介绍如何在 pandas DataFrame 中对存储字典的 Series 列进行条件过滤，重点讲解 str.get() 方法与列表推导式的实用技巧，并对比性能与可读性差异。

本文介绍如何在 pandas dataframe 中对存储字典的 series 列进行条件过滤，重点讲解 `str.get()` 方法与列表推导式的实用技巧，并对比性能与可读性差异。

在实际数据分析中，常会遇到结构化程度不一的数据——例如某列（如 location）并非标量类型，而是包含字典的混合对象。这类“嵌套字典列”无法直接通过 df[‘col’][‘key’] 进行向量化索引（因 df[‘Location’][‘State’] 会尝试对整个 Series 取键 ‘State’，引发 KeyError 或 TypeError）。正确做法是将字典访问操作向量化地作用于每个元素。

✅ 推荐方案：Series.str.get() + 布尔索引

str.get() 是 Pandas 为类字符串/类映射对象（如 dict、None 安全）提供的向量化访问方法，专为处理此类嵌套结构设计：

import pandas as pd  df = pd.DataFrame({     'Name': ['Alice', 'Bob', 'Aritra'],     'Age': [25, 30, 35],     'Location': [         {'City': 'Seattle', 'State': 'WA'},         {'City': 'New York', 'State': 'NY'},         {'City': 'Albany', 'State': 'NY'}     ] })  # 筛选 State == 'NY' 的所有行 filtered = df[df['Location'].str.get('State') == 'NY'] print(filtered)

输出：

Name  Age                             Location 1     Bob   30  {'City': 'New York', 'State': 'NY'} 2  Aritra   35    {'City': 'Albany', 'State': 'NY'}

? 优势说明：

str.get(‘State’) 自动对 Location 列每个字典调用 .get(‘State’)，返回 Series；

若某字典缺失 ‘State’ 键，.get() 默认返回 None（安全），避免 KeyError；

支持链式调用（如 str.get(‘address’).str.get(‘zip’) 处理多层嵌套）；

完全向量化，性能优于 Python 循环。

⚙️ 替代方案：列表推导式（适合复杂逻辑或调试）

当需要更灵活的判断逻辑（如多条件、默认值处理、异常捕获）时，可使用列表推导式构建布尔掩码：

mask = [d.get('State') == 'NY' for d in df['Location']] filtered = df[mask]

该写法语义清晰，易于调试，但非向量化，在大数据集上性能显著低于 str.get()。仅建议用于小规模数据或逻辑高度定制化场景。

⚠️ 注意事项与最佳实践

避免 apply(Lambda x: x[‘State’])：虽能工作，但性能差且不处理缺失键（遇 KeyError 会中断）；
str.get() 比 str[] 更安全：df[‘Location’].str[‘State’] 在部分版本中可能失效或抛异常；
空值/None 处理：str.get(‘State’, ‘UNKNOWN’) 可指定默认值，增强鲁棒性；
类型检查（进阶）：若列中混有非字典值（如 None, str, list），建议先清洗：
```
df['Location'] = df['Location'].apply(lambda x: x if isinstance(x, dict) else {})
```

掌握 str.get() 是处理 Pandas 中嵌套结构数据的关键技能——它让字典列像普通列一样参与高效布尔索引，兼顾简洁性、安全性与性能。

发表于：开发工具

近两天内

复制链接

配置VSCode用于Spring Boot开发

composer如何优化CI/CD流程中的依赖安装速度

如何在 WebStorm 中开发 WebAssembly 项目？

composer remove一个包后为什么还会出现在vendor目录

PHP 中 use 关键字在闭包回调中的作用与必要性详解

Pandas 中高效筛选嵌套字典列的行数据

✅ 推荐方案：Series.str.get() + 布尔索引

⚙️ 替代方案：列表推导式（适合复杂逻辑或调试）

⚠️ 注意事项与最佳实践

Go 中接口与结构体切片的类型转换原理与实践

mysql中InnoDB存储引擎的锁机制与性能优化

如何在 Go 中正确运行多文件程序

如何安全地进行百分比计算以避免除零错误

SQL 递归查询的 cycle clause 与无限循环防护方法

如何在Golang中使用Vagrant进行环境管理_Golang Vagrant虚拟机环境搭建

SQL 触发器在业务逻辑封装中的应用

Golang中的CSRF攻击预防方案 Go语言Web安全防护中间件实战

Go语言中正确解析嵌套动态键JSON数据的实战教程

mysql如何实现定时自动备份_mysql crontab备份脚本编写