如何在 Pandas 中仅对指定 ID 值去重（保留首次出现，删除后续重复）

11次阅读

本文介绍一种精准控制去重范围的方法：仅对 dataframe 中某一特定 id 值（如 id==1）删除其重复行，其余 id 值完全保留原样，不参与去重逻辑。

在实际数据处理中，我们常需“条件性去重”——并非全局去重，而是仅对满足某条件的子集执行去重操作。例如，给定如下 DataFrame：

import pandas as pd  df = pd.DataFrame({     'ID': [1, 2, 3, 1, 2, 3],     'Value': ['A', 'B', 'A', 'B', 'C', 'A'] })

目标是：仅当 ID == 1 时，删除其后续重复项（即保留第一个 ID=1 的行，移除第二个 ID=1 的行），而 ID=2 和 ID=3 的所有行均完整保留（即使它们自身存在重复，也不处理）。

实现该逻辑的核心思路是：构造布尔掩码（Boolean mask），精准定位“既是目标 ID 又是重复项”的行，再取反筛选。

具体步骤如下：

识别目标行：df.ID.eq(1) → 返回 True 仅当 ID 等于 1；
识别所有 ID 列的重复行（按首次出现保留原则）：df.duplicated(subset=[‘ID’]) → 对 ID 列标记从第二次出现起的所有重复行为 True；
组合条件：用 &（逻辑与）连接二者，得到仅对 ID==1 的重复行生效的掩码；
反向筛选：用 ~mask 保留非匹配行，即：保留所有非 ID=1 的行 + 保留 ID=1 的首次出现行。

完整代码如下：

mask = df.ID.eq(1) & df.duplicated(subset=['ID']) result = df[~mask].reset_index(drop=True) print(result)

输出结果为：

ID Value 0   1     A 1   2     B 2   3     A 3   2     C 4   3     A

✅ 注意事项：

该方案简洁、高效、可读性强，避免了 groupby 或循环等低效方式，是 Pandas 条件去重的典型范式。

发表于：数据库

2026-01-08

复制链接

composer怎么安装RabbitMQ官方SDK_composer引入php-amqplib依赖环境【教程】

币圈管“狗狗币”叫“大狗”和“二狗”是什么意思