如何基于分组的众数填充Pandas DataFrame中的缺失值

15次阅读

本文介绍如何在pandas中按某一列（如col_b）分组，用每组内目标列（如col_a）的众数（最频繁值）填充该组内的nan值，避免手动构建映射表，实现简洁、高效、可复用的缺失值插补。

在数据预处理中，针对分类或离散型特征的缺失值，常需采用“按业务逻辑分组后取众数填充”的策略——例如：同一用户类型（col_B）下，其偏好等级（col_A）的常见取值即为该类型的合理默认值。Pandas 提供了 groupby().transform() 与 fillna() 的组合方案，可直接完成这一任务，无需中间DataFrame或显式循环。

核心思路是：对 col_A 按 col_B 分组后，对每组调用自定义函数，先计算该组非空值的众数（Series.mode()），再用该众数填充组内所有NaN。transform 确保返回结果与原DataFrame等长且对齐，天然适配赋值操作。

以下是完整实现代码：

import pandas as pd import numpy as np  # 构造示例数据 df = pd.DataFrame({     'col_A': [8, 7, 20, np.nan, 8, 9, 37, np.nan, np.nan],     'col_B': [31, 30, 83, 5, 31, 34, 158, 5, 30] })  # 定义安全众数填充函数（兼容空组或无众数情况） def impute_mode(series):     mode_vals = series.mode()     if not mode_vals.empty:         return series.fillna(mode_vals.iloc[0])     else:         return series.fillna(series.dropna().iloc[0] if not series.dropna().empty else np.nan)  # 执行分组众数填充（原地更新或新建列均可） df['col_A_filled'] = df.groupby('col_B')['col_A'].transform(impute_mode)  print(df)

输出示例：

col_A  col_B  col_A_filled 0  8.0     31           8.0 1  7.0     30           7.0 2 20.0     83          20.0 3  NaN      5           NaN   # 注意：若col_B=5时col_A全为NaN，则mode为空，此处保持NaN（见下方说明） 4  8.0     31           8.0 5  9.0     34           9.0 6 37.0    158          37.0 7  NaN      5           NaN 8  NaN     30           7.0

✅ 关键优势：

一行 transform 调用完成全部填充，逻辑清晰、性能优异；
自动对齐索引，无需担心分组顺序或长度不匹配；
函数内嵌容错处理（如空众数、全NaN组），提升鲁棒性。

⚠️ 注意事项：

Series.mode() 返回 Series，需 .iloc[0] 取首个众数值（多众数时取出现最早的）；
若某 col_B 组内 col_A 全为 NaN，mode() 返回空Series，此时应降级处理（如填全局众数、均值，或保留NaN）；
对于含大量重复分组的大数据集，可提前用 df.groupby(‘col_B’)[‘col_A’].agg(pd.Series.mode) 预计算众数映射字典以进一步优化性能。

综上，groupby(…).transform(…) 是Pandas中实现“条件众数填充”的标准、推荐方式，兼顾可读性、简洁性与工程可靠性。

发表于：web前端

2026-01-09

复制链接

Vitest 中 spyOn 必须在测试作用域内声明的原因与配置冲突详解

Python 如何为函数设计清晰的职责？

css 布局中空白区域过多怎么办_重新规划 css 布局间距

Grid网格布局如何做完全自适应卡片布局_使用auto-fit与minmax结合fr生成弹性布局

Golang指针变量的零值为什么是nil

如何基于分组的众数填充Pandas DataFrame中的缺失值

如何永久设置 macOS 中的 GOPATH 环境变量

如何将 Pandas DataFrame 正确转换为单层字典用于列名映射

HTML5注释怎么批量替换_用正则批量修改注释内容的方法【详解】

如何正确实现价格输入框的本地化格式化（如法语空格分隔）

Angular 11 中 Radio 按钮默认值失效的解决方案

PHP后门怎么删除_异常进程占用高是否因后门作祟查法【汇总】

如何使用 inline-block 实现多个 div 的内联排列

systemd mount 单元启动失败显示 “dependency failed” 的 systemctl status 分析

Sublime如何修改侧边栏背景颜色_Sublime个性化UI深度定制【建议收藏】

PHP怎么输出arraylist_用echo或print_r直接显示数组内容【教程】