如何高效筛选并删除 NumPy 数组中包含特定字符串的列

1次阅读

本文介绍如何在 numpy 二维数组中定位含指定字符串的列，并通过布尔索引快速剔除该列，保留其余列构成新数组，适用于数据清洗与特征筛选场景。

本文介绍如何在 numpy 二维数组中定位含指定字符串的列，并通过布尔索引快速剔除该列，保留其余列构成新数组，适用于数据清洗与特征筛选场景。

在处理结构化文本数据（如简易表格、标签矩阵）时，常需基于某字符串的存在性对列进行筛选或剔除。NumPy 虽不原生支持字符串的“列级存在性”直接查询，但可通过向量化布尔运算高效实现。

给定如下二维字符串数组：

import numpy as np  contacts = np.array([     ["Apples", "Burger"],     ["Bananas", "Cake"],     ["Grapes", "Honey"] ])

目标是：识别包含字符串 “Bananas” 的列（此处为第 0 列），并删除整列，仅保留不含该字符串的列（即第 1 列），最终得到：

array([['Burger'],        ['Cake'],        ['Honey']], dtype='<U7')

核心思路是：
✅ 利用广播比较 contacts == ‘Bananas’ 得到形状相同的布尔数组；
✅ 沿行方向（axis=0）求和：(contacts == ‘Bananas’).sum(0) → 返回每列中 ‘Bananas’ 出现的次数（一维数组）；
✅ 构造布尔掩码：(contacts == ‘Bananas’).sum(0) == 0，值为 True 的列即不包含 ‘Bananas’；
✅ 使用该掩码对列切片：contacts[:, mask]。

完整可运行代码如下：

mask = (contacts == 'Bananas').sum(0) == 0 result = contacts[:, mask] print(result) # 输出： # [['Burger'] #  ['Cake'] #  ['Honey']]

⚠️ 注意事项：

该方法依赖 精确匹配（区分大小写、空格），若需模糊匹配（如子串、正则），应改用 np.char.find 或结合 np.vectorize + str.contains（但会损失纯 NumPy 性能）；
若数组含混合类型（如数字与字符串），需先统一转为 dtype=Object 或 dtype=’
当目标字符串在多列中均出现时，该逻辑将剔除所有含该字符串的列——符合“清除所有污染列”的典型清洗需求；
若需保留含目标字符串的列（而非剔除），只需将掩码改为 (contacts == ‘Bananas’).sum(0) > 0。

此方案完全向量化、无 Python 循环，时间复杂度为 O(m×n)，是 NumPy 风格数据筛选的推荐实践。

发表于：开发工具

近一天内

复制链接

使用VSCode进行远程SSH开发

sublime怎么显示文件的git修改状态_Sublime集成Git状态侧边栏高亮显示

Sublime如何显示代码中的Git修改状态？ (GitGutter插件详解)

VS Code扩展生态剖析：API设计与商店发布全流程指南

Flask 模板继承失效的常见原因与正确用法详解

如何高效筛选并删除 NumPy 数组中包含特定字符串的列

一文了解生息稳定币：2026年值得重点关注的5个项目

C# 跨平台文件锁定 C#如何实现一个在Windows和Linux上都工作的顾问锁

如何在 Unform 中跨组件获取或设置表单项的值

使用反射动态注入依赖对象_简易依赖注入容器实现原理

如何在 Laravel 项目中为 HTML 图像设置宽高属性

css动画如何实现元素的旋转效果_通过transform旋转和@keyframes实现

CSS伪元素实现简单的日历图标_纯CSS构建布局与日期

C++怎么使用Eigen库_C++矩阵运算教程【科学】

SQL max_parallel_workers_per_gather 的并行 worker 数量与 CPU 核数匹配经验

CSS伪元素::placeholder美化_定制表单输入框的占位文字