pandas 如何在 groupby 后只对部分列做不同聚合函数

8次阅读

最常用方式是用字典指定列与函数映射，支持单列单函数、单列多函数（生成多级索引）及命名聚合（如agg(sales_sum=(‘sales’,’sum’))避免嵌套），需确保函数返回标量且key不冲突。

直接对 groupby 结果调用 agg()，并传入一个字典，键是列名，值是聚合函数（可为字符串、函数或函数列表）。这是最常用也最清晰的方式。

支持单列单函数：{'sales': 'sum', 'price': 'mean'}
支持单列多函数：用列表包裹，如 {'sales': ['sum', 'count'], 'price': 'max'}，结果列名会自动变成多级索引（('sales', 'sum')）
若想避免多级索引，可后续加 columns.droplevel(0) 或用命名元组方式（见下一条）
函数可以是内置字符串（'min'）、numpy 函数（np.std）、自定义函数（需接受 Series 并返回标量）

当一列需要多个聚合函数，又不想让结果列名带多级索引时，用 pd.NamedAgg（pandas ≥ 0.25）或元组形式（旧版本兼容）更可控。

pandas 1.0+ 推荐写法：agg(sales_sum=('sales', 'sum'), sales_cnt=('sales', 'count'), price_avg=('price', 'mean'))
效果是生成扁平列名：sales_sum、sales_cnt、price_avg，无嵌套
旧版本可用元组：agg([('sales_sum', 'sum'), ('sales_cnt', 'count')])，但仅适用于单列；多列需拼字典 + 元组组合，较易出错
注意：键名不能和原始列名冲突，否则会被覆盖或引发 ValueError: duplicate names

如果原始 DataFrame 列很多，而你只关心其中几列的聚合，先用 [...] 选列再 groupby().agg(...)，能减少内存占用和计算开销。

正确：df[['group_key', 'A', 'B', 'C']].groupby('group_key').agg({'A': 'sum', 'B': 'mean'})
错误：在完整 df.groupby(...).agg({...}) 中只写部分列名，其余列不会报错但会被静默丢弃——容易误以为“没生效”，其实是被过滤了
若 groupby 的 key 不在所选列中（比如 df[['A','B']].groupby('category')），会抛 KeyError: 'category'，必须确保 key 列已包含在前一步选择中

在 agg 字典里混用 lambda x: x.max() - x.min() 和 np.ptp 看似等价，但实际行为可能不同。

lambda 接收的是每个分组的 Series，所以 x.max() - x.min() 安全；但若写成 lambda x: x['col'].max() 就会报错（x 已是 Series，无列索引）
涉及缺失值时，np.ptp 默认不跳过 NaN，而 lambda x: x.max() - x.min() 会受 skipna=True 设置影响（默认开启），结果可能不一致
大量数据下，向量化函数（如 np.mean）比 lambda 快得多；复杂逻辑建议封装成独立函数并加上 @numba.jit 或用 apply 分离处理

真正容易被忽略的是：当字典里某列对应函数返回不是标量（比如返回 list、Series 或 DataFrame），agg 会静默失败或降级为 apply 行为，输出结构不可控。务必确认每个聚合函数对任意非空分组都返回单一标量值。

发表于：后端开发

2026-01-24

复制链接

如何在 Qualtrics 中精准追踪用户点击的具体外部链接

Go语言测试文件如何命名_Go测试文件规范说明