如何使用 NumPy 高效删除零方差列

23次阅读

如何使用 NumPy 高效删除零方差列

本文介绍如何用一行简洁的 numpy 代码识别并剔除数组中所有方差为零（即所有非 nan 值完全相同）的列，同时兼容含 nan 的数据。

在数据预处理中，零方差特征（如全为同一常数、或除 NaN 外全部相同）通常不具备区分能力，应被移除以提升模型效率与稳定性。NumPy 提供了 np.var() 函数，默认会将 NaN 视为缺失值并导致整列方差为 nan；但直接使用 np.var(X, axis=0) != 0 会因 NaN 比较返回 False，从而错误丢弃含 NaN 的列——这正是需特别注意的关键点。

✅ 正确做法是：先显式忽略 NaN 计算方差，再筛选非零方差列。推荐使用 np.nanvar()（NumPy ≥ 1.10）：

import numpy as np  X = np.array([[1, 10, np.nan, 0],               [2, 10, np.nan, 0],               [3, 10, np.nan, 0]])  # ✅ 安全剔除零方差列（自动跳过 NaN） mask = np.nanvar(X, axis=0) != 0  # 返回布尔数组：[True, False, False, False] X_filtered = X[:, mask]  print(X_filtered) # 输出： # [[ 1. nan] #  [ 2. nan] #  [ 3. nan]]

⚠️ 注意事项：

np.var() 在含 NaN 时返回 nan，而 nan != 0 为 False，会导致本该保留的列（如第1列 [10,10,10]）被误删；
np.nanvar() 自动沿指定轴忽略 NaN 计算方差，对全 NaN 列返回 nan，此时建议额外处理（例如设 nanvar(…, ddof=0) 并用 np.isfinite() 过滤）；
若需同时剔除全 NaN 列、全零列和零方差列，可合并布尔掩码：

mask = (     ~np.all(np.isnan(X), axis=0) &     # 非全 NaN     ~np.all(X == 0, axis=0) &         # 非全零     np.nanvar(X, axis=0) != 0         # 非零方差（忽略 NaN） ) X = X[:, mask]

总结：np.nanvar(X, axis=0) != 0 是剔除零方差列最简洁、鲁棒且符合数据科学实践的标准方案，务必优先替代原始 np.var() 调用。

发表于：后端开发

2025-12-30

# numpy # red # var

复制链接

Golang如何实现任务并发处理_Go语言并发任务实战

深入理解Go语言方法集：为何不能同时为结构体及其指针定义同名方法？

Autokeras中标签编码、随机种子对模型性能的影响及复现性策略

Python类方法间数据共享：利用类方法与类变量实现数据传递

如何在Golang中优化模块结构_减少依赖和模块复杂度

如何使用 NumPy 高效删除零方差列

今日小鸡庄园答案1.13 今日小鸡庄园答题的答案2026

VSCode的Kubernetes插件：管理你的K8s集群

如何使用 CSS Grid 实现悬浮时元素重叠而不破坏网格布局

css 在组件化开发中如何写选择器_组件样式隔离思路

Golang Web服务如何应对高流量_Golang流量控制与保护方案

css 如何制作水平居中模块_利用 margin auto 与 display block

PHP用curl_exec获取网址内容要注意啥_PHP获取内容注意点【细节】

如何在Golang中构建全局错误处理机制_Golang全局错误处理与管理方案

mysql如何设计和实现库存管理系统_mysql库存数据优化

如何识别数组中被拖拽重排的元素