使用NumPy高效选择Pandas DataFrame指定坐标的单元格

2025-11-12 7:09

|

7

|

后端开发

1601 字

|

7 分钟

使用NumPy高效选择Pandas DataFrame指定坐标的单元格

本文详细介绍了如何利用numpy的强大索引能力，高效地从pandas DataFrame中根据一组行/列坐标选择特定单元格，并支持“反向选择”模式。通过将坐标列表转换为适合NumPy数组索引的转置元组，我们能够以矢量化方式创建新的DataFrame，填充指定单元格或将其余单元格留空，从而避免了低效的循环操作，显著提升了数据处理性能。

引言

在数据分析和处理中，我们经常需要从大型数据结构中精确地提取或修改特定数据点。对于Pandas DataFrame而言，虽然有多种选择数据的方法（如loc、iloc、at、iat），但当需要根据一组非连续的(行索引, 列索引)坐标来批量选择单元格时，直接迭代往往效率低下。本文将介绍一种利用NumPy数组的矢量化索引功能，高效地实现DataFrame指定单元格选择，并支持反向选择的策略。

问题描述与传统方法的局限

假设我们有一个Pandas DataFrame和一个包含(行, 列)元组的坐标列表。我们的目标是根据这些坐标来选择DataFrame中的特定单元格，并能够灵活地实现两种模式：

正向选择 (inverted=False)：只保留指定坐标处的单元格内容，其余单元格留空（例如，设置为 ”）。
反向选择 (inverted=True)：保留所有非指定坐标处的单元格内容，而将指定坐标处的单元格留空。

传统上，对于单个或少量单元格的操作，我们可以使用df.iat[row, col]或df.at[row_label, col_label]。但当坐标列表较长时，循环遍历并逐个操作这些单元格会非常慢，尤其是在需要创建新DataFrame而不是原地修改时。

解决方案：利用NumPy的矢量化索引

NumPy数组提供了强大的高级索引功能，允许我们使用整数数组作为索引来同时选择多个非连续的元素。这是实现高效批量选择的关键。

核心思路

DataFrame到NumPy数组的转换：将Pandas DataFrame转换为NumPy数组，以便利用NumPy的矢量化操作。
坐标列表的转换：将[(row1, col1), (row2, col2), …]形式的坐标列表转换为NumPy高级索引所需的(Array([row1, row2, …]), array([col1, col2, …]))形式。
矢量化选择与赋值：根据inverted标志，创建目标数组并使用转换后的坐标进行高效的赋值操作。
NumPy数组到DataFrame的转换：将处理后的NumPy数组转换回Pandas DataFrame。

步骤详解与示例代码

首先，定义我们的输入数据：

小羊标书

一键生成百页标书，让投标更简单高效

62

查看详情

import pandas as pd import numpy as np  df = pd.DataFrame({     'col1': ['A', 'B', 'C', 'A', 'G'],     'col2': ['B', 'E', 'F', 'F', 'H'],     'col3': ['C', 'D', 'E', 'A', 'I'] })  coords = [(2, 0), (3, 2)]  print("原始DataFrame:") print(df)

输出:

原始DataFrame:   col1 col2 col3 0    A    B    C 1    B    E    D 2    C    F    E 3    A    F    A 4    G    H    I

接下来，我们构建实现选择逻辑的函数：

def select_cells_by_coords(dataframe: pd.DataFrame, coordinates: list, inverted: bool = False) -> pd.DataFrame:     """     根据给定的坐标列表选择或反向选择DataFrame中的单元格。      参数:         dataframe (pd.DataFrame): 输入的Pandas DataFrame。         coordinates (list): 包含 (行索引, 列索引) 元组的列表。         inverted (bool): 如果为True，则保留非指定坐标的单元格，将指定坐标的单元格留空。                          如果为False，则只保留指定坐标的单元格，其余留空。      返回:         pd.DataFrame: 经过选择操作后的新DataFrame。     """     # 1. 将DataFrame转换为NumPy数组     data_array = dataframe.to_numpy()      # 2. 转换坐标列表为NumPy高级索引格式     # np.array(coordinates) 得到 [[r1, c1], [r2, c2], ...]     # .T 进行转置得到 [[r1, r2, ...], [c1, c2, ...]]     # tuple(...) 将其转换为 (array([r1, r2, ...]), array([c1, c2, ...]))     # 这是NumPy高级索引所期望的格式     np_coords = tuple(np.array(coordinates).T)      # 3. 根据 'inverted' 标志执行选择逻辑     if inverted:         # 反向选择：复制原始数据，然后将指定坐标处的单元格设置为空字符串         output_array = data_array.copy()         output_array[np_coords] = ''     else:         # 正向选择：创建一个与原始DataFrame形状相同的空字符串数组         # 然后将原始数据中指定坐标的单元格内容复制过来         output_array = np.full(data_array.shape, '', dtype=Object) # 使用object dtype以容纳混合类型         output_array[np_coords] = data_array[np_coords]      # 4. 将处理后的NumPy数组转换回Pandas DataFrame     return pd.DataFrame(output_array, columns=dataframe.columns)  # 测试函数 print("n--- 正向选择 (inverted=False) ---") result_normal = select_cells_by_coords(df, coords, inverted=False) print(result_normal)  print("n--- 反向选择 (inverted=True) ---") result_inverted = select_cells_by_coords(df, coords, inverted=True) print(result_inverted)

预期输出:

--- 正向选择 (inverted=False) ---   col1 col2 col3 0 1 2    C 3              A 4  --- 反向选择 (inverted=True) ---   col1 col2 col3 0    A    B    C 1    B    E    D 2         F    E 3    A    F 4    G    H    I

代码解析

dataframe.to_numpy(): 这是性能优化的第一步。Pandas DataFrame的索引和标签查找开销较大，而NumPy数组的直接内存访问和索引操作效率更高。
tuple(np.array(coordinates).T): 这是理解本方案的关键。
- np.array(coordinates)将[(2, 0), (3, 2)]转换为二维NumPy数组 [[2, 0], [3, 2]]。
- .T（转置）操作将其变为 [[2, 3], [0, 2]]。
- tuple(…) 将其转换为 (array([2, 3]), array([0, 2]))。
- 这种(行索引数组, 列索引数组)的元组形式正是NumPy高级索引所需要的，它会选择所有由(行索引数组[i], 列索引数组[i])定义的单元格。
if inverted: 逻辑:
- 当 inverted=True 时，我们首先复制原始数据 (data_array.copy())，然后直接使用 output_array[np_coords] = ” 将指定坐标处的单元格内容替换为空字符串。
- 当 inverted=False 时，我们首先创建一个与原始数据形状相同的全空字符串数组 (np.full(data_array.shape, ”, dtype=object))。dtype=object 是为了确保能够容纳字符串，避免NumPy在混合类型时尝试统一为数值类型导致的问题。然后，我们从原始数据中提取指定坐标的单元格内容 (data_array[np_coords])，并将其赋值给 output_array 相同坐标的位置。
pd.DataFrame(output_array, columns=dataframe.columns): 最后一步是将处理后的NumPy数组重新封装回Pandas DataFrame，并保留原始的列名。

注意事项与总结

性能优势：相较于使用df.iat在循环中逐个修改单元格，NumPy的矢量化操作能够显著提高处理大量坐标时的性能。
数据类型兼容性：在将单元格设置为空字符串”时，如果原始DataFrame包含数值类型数据，NumPy数组的dtype可能会变为object以容纳混合类型。这通常不会影响后续操作，但需要注意数据类型的变化。如果需要保留数值类型并在空白处使用np.nan，则需要相应调整填充值。
灵活性：这种方法不仅限于设置为空字符串，你可以根据需求将指定单元格设置为任何其他值，或者执行更复杂的计算。
内存使用：此方法会创建原始DataFrame的NumPy数组副本以及一个结果数组。对于非常大的DataFrame，需要考虑内存消耗。

通过以上方法，我们能够以一种既高效又灵活的方式，根据坐标列表对Pandas DataFrame的单元格进行精确选择和操作，无论是正向筛选还是反向剔除，都能轻松应对。这充分展示了NumPy与Pandas结合在数据处理中的强大威力。

Array copy if numpy Object pandas 值类型字符串字符串数组封装循环性能优化数据分析数据类型数据结构

text=ZqhQzanResources

引言