NumPy怎么做SVD分解_np.linalg.svd()奇异值分解与降维原理应用

2次阅读

np.linalg.svd()仅支持二维输入,一维数组需reshape或atleast_2d升维;返回的s是一维奇异值数组,重构需显式构造Σ并按u@Σ@vt顺序计算;降维应设full_matrices=false并截取前k项。

NumPy怎么做SVD分解_np.linalg.svd()奇异值分解与降维原理应用

np.linalg.svd() 要求输入必须是二维矩阵,一维数组直接报错

如果你传入 np.Array([1, 2, 3]) 这种 shape 为 (3,) 的一维数组,np.linalg.svd() 会立刻抛出:LinAlgError: 1-dimensional array given. Array must be at least two-dimensional。这不是 bug,是设计使然——SVD 定义在矩阵(即二维结构)上,向量没有“左/右奇异向量”的几何意义。

解决方法很简单:用 .reshape() 或双括号强制升维:

  • np.array([1, 2, 3]).reshape(1, -1) → 行向量(1×3),适合把单条样本当一行特征
  • np.array([1, 2, 3]).reshape(-1, 1) → 列向量(3×1),适合把单个变量的多个观测当一列
  • 更稳妥写法:np.atleast_2d(arr).T(转置保证列向量)或 np.atleast_2d(arr)(默认行向量)

U、S、VT 三个返回值怎么用?别直接拿 S 当对角矩阵

np.linalg.svd(A) 返回的是 U(m×m 正交)、S(一维 ndarray,长度为 min(m,n))、VT(n×n 正交)。注意:S 不是对角矩阵,只是奇异值列表;直接 U @ S @ VT 会报维度错误。

重构原矩阵的正确姿势是:

  • 构造 Σ:用 np.zeros((A.shape[0], A.shape[1])) 初始化,再 np.fill_diagonal(Σ, S)
  • 或更简洁:Σ = np.diag(S) —— 但仅当 A 是方阵或你接受截断形状时安全;否则推荐显式填充
  • 乘法顺序固定:U @ Σ @ VT,不是 U.T @ Σ @ VT.T 或其他变体

降维不是调个 k 就完事:full_matrices 参数决定内存和形状

默认 full_matrices=True 时,U 是 m×m、VT 是 n×n,哪怕 A 很瘦(比如 1000×10),也会生成巨大的冗余矩阵,容易 OOM。

真实降维场景(如 PCA 替代、图像压缩)应设 full_matrices=False

  • U 变成 m×r,VT 变成 r×n(r = rank ≈ min(m,n)),内存直降一个量级
  • 截断前 k 个奇异值时,直接取 U[:, :k]S[:k]VT[:k, :] 即可,无需构造全尺寸 Σ
  • 注意:scipy.sparse.linalg.svds 不支持 dense 输入,稀疏矩阵降维请用 scipy.sparse.linalg.svdssklearn.decomposition.TruncatedSVD

重构误差不为零?检查浮点精度和秩近似是否合理

即使完美分解,np.linalg.norm(A - U @ Σ @ VT) 通常也不是精确 0,而是 ~1e-14 量级 —— 这是双精度浮点计算的正常残差,不用慌。

但若误差 > 1e-8,可能踩了这些坑:

  • 用了 np.diag(S)A 是长方形(如 5×3),导致 Σ 形状错配(应为 5×3,而非 3×3)
  • 做截断重构时,误用 VT[:k, :].T 代替 VT[:k, :]VT 已是转置结果)
  • 原始矩阵含 NaN 或 inf:SVD 会静默失败或返回异常值,务必先 np.isnan(A).any() 检查

奇异值本身能告诉你数据本质:如果 S[10:] 全是 ~1e-16,说明秩最多 10,强行保留 50 个奇异值纯属浪费。

text=ZqhQzanResources