Pandas 中按列分组并统计非空值数量的完整教程

3次阅读

本文详解如何在 pandas 中对某列（如 ColA）进行分组后，精确统计另一列（如 ColB）中非缺失值的数量，确保缺失值（NaN）被计为 0 而非忽略，解决 value_counts() 无法跨列条件计数的核心痛点。

本文详解如何在 pandas 中对某列（如 cola）进行分组后，精确统计另一列（如 colb）中**非缺失值的数量**，确保缺失值（nan）被计为 0 而非忽略，解决 `value_counts()` 无法跨列条件计数的核心痛点。

在数据分析中，我们常需回答类似“每个类别下，某指标的有效记录有多少条？”的问题。此时若直接使用 df[‘ColA’].value_counts()，它仅统计 ColA 自身各取值的频次，完全不考虑其他列的数据状态；而若用 df.groupby(‘ColA’)[‘ColB’].count()，其默认行为是自动排除 NaN——这看似合理，但关键在于：它不会为不含有效值的组返回 0，而是直接跳过该组（例如原始数据中 ColA == ‘D’ 时 ColB 为 NaN，count() 仍会返回 D → 0，但必须配合 as_index=False 和明确列选择才能获得结构化结果）。

正确做法是显式执行分组 + 列级非空计数：

import pandas as pd import numpy as np  # 构造示例数据 df = pd.DataFrame({     'ColA': ['A', 'A', 'B', 'B', 'C', 'D'],     'ColB': ['01', '02', '03', '04', '05', np.nan] })  # ✅ 正确：按 ColA 分组，统计 ColB 中非 NaN 值的数量（含 0） result = df.groupby('ColA', as_index=False)['ColB'].count() print(result)

输出：

ColA  ColB 0   A     2 1   B     2 2   C     1 3   D     0

? 原理说明：groupby(…)[col].count() 在 Pandas 中专指「该列在每组内的非空值个数」，且自动将全空组的结果设为 0（注意：这是 count() 方法的固有行为，不同于 size() 或 len()）。as_index=False 确保结果为标准 DataFrame，便于后续处理。

⚠️ 注意事项：

不要误用 df.groupby(‘ColA’)[‘ColB’].size() —— 它统计每组总行数（含 NaN），D 组将返回 1，不符合需求；
避免 df.groupby(‘ColA’).count() 全列调用，它会对所有数值列分别计数，可能引入冗余列且逻辑不聚焦；
若需同时统计多个列的非空数，可传入列表：df.groupby(‘ColA’, as_index=False)[[‘ColB’, ‘ColC’]].count()；

对于更复杂的条件计数（如“ColB > 10 的个数”），应改用 agg() 配合 Lambda：

df.groupby('ColA', as_index=False).agg(     colb_valid_count=('ColB', lambda x: x.notna().sum()) )

总结：当目标是「按主分类列分组，并精确量化某指标列的有效观测数」时，groupby(…)[target_col].count() 是最简洁、语义最清晰、结果最可靠的方案。它天然支持缺失值归零语义，无需额外填充或条件判断，是 Pandas 数据聚合中的基础但易被低估的关键技巧。

发表于：数据库

近一天内

复制链接

Laravel怎么使用Rate Limiting限流_Laravel API访问控制教程【防护】

mysql安装后如何测试并发连接数

mysql主从复制中的延迟与错误排查

SQL 正则表达式在 SQL 数据处理实战应用

HTML表单怎样使用POST方法_HTML表单使用POST方法方法【详解】

Pandas 中按列分组并统计非空值数量的完整教程

css定位元素在响应式布局中如何自适应_结合百分比和媒体查询

如何在 Rails 7 中为 CKEditor 自定义工具栏配置

C++如何使用volatile关键字？（内存可见性说明）

为什么“回本就卖”的心理会让你错过翻倍行情？

SQL 分区表（partitioning）的 RANGE / LIST / HASH / KEY 类型业务适用性

vscode怎么打开两个控制台

Linux服务器网络告警_网络告警处理思路

Sublime怎么连接Git Sublime怎么提交代码到仓库【协同】

Laravel多表关联查询 Laravel如何处理复杂的Join连接【经验】

如何使用 reduce 递归转换嵌套对象结构为带 update 包裹的格式