如何在 Pandas DataFrame 中仅对指定 ID 值去重

16次阅读

本文介绍一种精准去重策略：仅对 dataframe 中特定 id（如 id == 1）的重复行进行删除，保留其他 id 的所有记录，利用布尔掩码与 `duplicated()` 灵活组合实现。

在实际数据分析中，全局去重（如 df.drop_duplicates(subset=’ID’)）往往过于粗放——它会抹除所有 ID 的后续重复项，而业务需求常要求“选择性克制”：只对某个关键 ID 去重，其余 ID 完全保留原貌。例如，你可能希望 ID=1 的首次出现有效，后续同 ID 行一律剔除；但 ID=2 或 ID=3 的重复（如多条记录、不同时间戳）需完整保留。

核心思路是构造一个条件化布尔掩码（Conditional Boolean mask），仅标记「既是目标 ID 又属于重复项」的行，再通过逻辑取反 ~mask 进行过滤：

import pandas as pd  df = pd.DataFrame({     'ID': [1, 2, 3, 1, 2, 3],     'Value': ['A', 'B', 'A', 'B', 'C', 'A'] })  # ✅ 关键一步：仅对 ID == 1 的重复行标记为 True mask = df['ID'].eq(1) & df.duplicated(subset=['ID']) result = df[~mask].reset_index(drop=True)  print(result)

输出：

ID Value 0   1     A 1   2     B 2   3     A 3   2     C 4   3     A

? 分步解析掩码逻辑：

df[‘ID’].eq(1) → [True, False, False, True, False, False]：定位所有 ID=1 的位置；
df.duplicated(subset=[‘ID’]) → [False, False, False, True, True, True]：标记从第二次出现起的每个重复 ID（按行顺序）；
二者 &（按位与）→ [False, False, False, True, False, False]：仅第 3 行（索引 3，ID=1 第二次出现）被标记为待删除；
df[~mask] 即排除该行，完美达成目标。

⚠️ 注意事项：

duplicated() 默认 keep=’first’，即保留首次出现、标记后续重复项。若需保留最后一次，可改用 df.duplicated(subset=[‘ID’], keep=’last’)，但此时需同步调整逻辑（如结合 ~df.duplicated(…, keep=’last’)）；
若目标值是字符串或浮点数（如 ‘user_101’ 或 1.0），确保类型一致，建议显式使用 df[‘col’].isin([target]) 替代 .eq() 提升可读性与兼容性；
此方法不修改原 DataFrame，符合函数式编程习惯，适合嵌入 pipeline。

总结：Pandas 的向量化布尔运算赋予了细粒度数据清洗强大能力。记住口诀——“条件筛选 + 重复标记 = 精准去重”，无需循环或 groupby，一行掩码即可优雅解题。

发表于：运维

2026-01-08

复制链接

Python推导式使用规范_可读性权衡说明【指导】

Linux环境变量如何配置_系统与用户级变量解析【指导】

Python定时任务进阶教程_Crontab与APScheduler实战

php数组怎样筛选价格高于阈值_php价格数组筛选教程【教程】

什么是“强平价格”？避免一夜归零必须盯紧的红线

如何在 Pandas DataFrame 中仅对指定 ID 值去重

NestJS 中正确抛出异常以确保返回正确的 HTTP 状态码

strace -p 发现进程卡在 read/writev/fsync 怎么继续深挖

如何安全设计 Python 自定义文件操作类

c# this 关键字的用法

如何在 Matplotlib 中实现实时数据更新而非重复创建新图表

如何精确控制 CSS 过渡动画的延迟与反向时序

如何修复移动端侧边菜单滑入动画失效问题

如何通过 jQuery 动态加载 PHP 文件到指定 Tab 中

如何正确嵌入结构体字段以避免编译错误

Axios 404 错误排查与登录接口调用完整指南