如何在Pandas DataFrame的每行数组中高效进行有放回随机抽样

4次阅读

本文介绍如何对dataframe中每行包含的多个大型数值数组（如11列×每列38000个float64）执行按行独立的有放回随机抽样（如每行抽取1000个数），并修正常见维度错误。

本文介绍如何对dataframe中每行包含的多个大型数值数组（如11列×每列38000个float64）执行按行独立的有放回随机抽样（如每行抽取1000个数），并修正常见维度错误。

在处理高维科学计算或生物信息学等场景时，常遇到类似结构：一个DataFrame有800行、11列，每单元格存储一个长度为38,000的numpy数组（dtype=float64）。目标是对每一行的所有11个数组先合并，再从中独立、有放回地随机抽取n=1000个数值，最终将结果以新列（如’rand_sample’）形式存入DataFrame。

原始代码出错的根本原因在于嵌套循环逻辑错误：

df['rand_sample'] = [np.random.choice(j, size=n, replace=True) for i in df for j in df[i]]

该写法实际展平了整个DataFrame（800行 × 11列 = 8800个数组），对每个数组都抽样一次，最终生成8800个长度为1000的数组（共8,800,000个元素），而DataFrame索引仅800行，导致ValueError: Length of values (8000) does not match length of index (800)——注意此处报错中的“8000”实为8800的近似误报，本质是列表推导式产出元素数（800×11）与DataFrame行数不匹配。

✅ 正确解法是逐行操作（axis=1），并在每行内先合并所有数组，再统一抽样：

import numpy as np import pandas as pd  n = 1000 df['rand_sample'] = df.apply(     lambda row: np.random.choice(         np.concatenate(row.values),  # 将当前行11个数组拼接为单个长数组（len=418,000）         size=n,         replace=True     ),     axis=1 )

? 关键说明：

row.values 获取当前行所有列的值（即11个ndarray对象）；
np.concatenate(row.values) 高效合并为一维数组（无需显式np.hstack或循环np.append）；
np.random.choice(…, replace=True) 支持对大型数组高效有放回抽样（底层C实现，性能远优于Python循环）；
axis=1 确保函数作用于每一行，输出长度严格等于DataFrame行数（800），完美匹配索引。

⚠️ 注意事项：

若数组含NaN或inf，np.random.choice会抛出ValueError；建议预处理：np.concatenate([arr[~np.isnan(arr) & np.isfinite(arr)] for arr in row.values])；
内存敏感场景下，np.concatenate会创建临时大数组（38,000×11≈418KB/行 × 800行 ≈ 334MB）；如内存受限，可改用分块抽样（如每列抽floor(1000/11)个，再补足），但会损失“全局均匀性”；

为保证结果可复现，请在抽样前设置随机种子：np.random.seed(42)（全局）或使用Generator实例（推荐）：

rng = np.random.default_rng(seed=42) df['rand_sample'] = df.apply(     lambda row: rng.choice(np.concatenate(row.values), size=n, replace=True),     axis=1 )

此方案简洁、向量化、符合Pandas惯用范式，兼顾正确性与性能，适用于大规模数组抽样任务。

发表于：运维

四天前

复制链接

mysql如何实现异地备份同步_mysql使用rsync同步备份文件

如何实现内嵌圆角边框效果（Inner Border Radius）

Linux CPU缓存命中率低_缓存优化思路

如何使用Golang实现任务超时控制_Golang context与超时处理方法

Laravel如何限制接口请求频率？（防刷限流）

如何在Pandas DataFrame的每行数组中高效进行有放回随机抽样

css grid布局下按钮无法居中怎么办_通过单元格对齐方式说明

mysql使用EXPLAIN分析查询执行计划

Django模板中正确使用{% url %}标签避免HTML实体转义错误

PHP变量比较有哪些方式_PHP变量比较方式汇总【汇总】

PHP变量怎么优化性能_PHP变量性能优化方法介绍【技巧】

如何为含多级分组的 HTML 表格实现高可访问性

ThinkPHP的日志级别有哪些及怎么配置_日志系统配置【介绍】

vue.js项目怎么在vscode里运行

控制器操作前置和后置钩子怎么实现_控制器行为扩展【技巧】

JavaScript中逻辑空赋值运算符与可选链的联合应用