高效生成滚动子序列 DataFrame：使用 NumPy 滑动窗口加速计算

3次阅读

本文介绍如何利用 numpy.lib.stride_tricks.sliding_window_view 高效构建滚动窗口 dataframe，替代低效循环，在 10 万行数据上提速超 400 倍，兼顾内存友好性与代码简洁性。

在时间序列分析、特征工程或滑动统计建模中，常需将一列数据（如传感器读数、股价序列）转换为多个长度固定的滚动子序列，并组织成二维结构（如 DataFrame）。例如，对长度为 1000 的序列以窗口大小 5 进行滑动，应得到 996 个长度为 5 的子序列，最终构成形状为 (5, 996) 的矩阵——每列代表一个起始位置的窗口，每行对应窗口内偏移量（即 col0 是各窗口首元素，col1 是次元素，依此类推）。

传统做法（如嵌套 for 循环 + iloc）虽逻辑直观，但时间复杂度为 O(n×w)，在 n=20,000 时耗时近 10 分钟，完全不可扩展。根本瓶颈在于频繁的 Python 层索引开销与内存拷贝。

推荐方案：零拷贝滑动视图 + 向量化转置
NumPy 1.20+ 提供的 sliding_window_view 可创建内存共享的滑动视图——不复制原始数据，仅通过调整 strides 和 shape 实现“虚拟”窗口，近乎常数时间开销。配合 .T 转置，即可自然对齐目标格式（行=窗口，列=时间步）：

import pandas as pd import numpy as np from numpy.lib.stride_tricks import sliding_window_view as swv  # 构造示例数据（1000 行） N = 1000 df = pd.DataFrame({'col0': range(1, N + 1)})  # ✅ 高效生成滚动子序列 DataFrame（窗口大小=5） window_size = 5 rolling_array = swv(df['col0'], window_shape=window_size)  # 形状: (996, 5) result_df = pd.DataFrame(rolling_array.T).add_prefix('col')  # 转置后: (5, 996) → 列命名 col0~col995  print(result_df.head()) #    col0  col1  col2  col3  col4  col5  ...  col990  col991  col992  col993  col994  col995 # 0     1     2     3     4     5     6  ...     991     992     993     994     995     996 # 1     2     3     4     5     6     7  ...     992     993     994     995     996     997 # 2     3     4     5     6     7     8  ...     993     994     995     996     997     998 # 3     4     5     6     7     8     9  ...     994     995     996     997     998     999 # 4     5     6     7     8     9    10  ...     995     996     997     998     999    1000

性能对比（n=100,000）

循环实现：≈ 10,000 ms（10 秒级）
sliding_window_view：≈ 25 ms（提升 400×），且内存占用恒定（视图无拷贝）

关键注意事项

✅ 兼容性：需 NumPy ≥ 1.20；旧版本可用 np.lib.stride_tricks.as_strided（需手动计算 strides，易出错，不推荐）。
⚠️ 只读语义：sliding_window_view 返回只读数组，若需修改结果，请显式调用 .copy()。
? 输出维度：输入长度 n、窗口大小 w → 输出列数为 n – w + 1，行数恒为 w。
? 多列扩展：若需对多列同时滚动，先 swv(df.values, w) 再按需重塑（注意 axis 顺序），但需确保列间对齐逻辑一致。

该方法将滚动窗口从“计算密集型任务”降维为“元数据操作”，是 Pandas 用户处理大规模滑动特征的首选实践。结合后续向量化操作（如 df.mean(axis=0) 计算每窗口均值），可构建端到端高性能流水线。

发表于：后端开发

近两天内

复制链接

php数组怎样筛选含特定数量键_php键数量数组筛选法【教程】

如何通过Golang反射判断变量类型_Golang reflect类型检测与分类解析

如何在Golang中使用包管理工具_快速引入依赖库

SweetAlert2 Swal.fire() 确认按钮文本自定义指南

JAX 的 jit 缓存机制：如何基于形状与类型复用 JAXPR

高效生成滚动子序列 DataFrame：使用 NumPy 滑动窗口加速计算

php获取本机ip在laravel中怎么用_laravel辅助取ip法【技巧】

c++中如何使用std::wcout输出宽字符中文_c++本地化设置方法【汇总】

怎么修复PHP本地环境乱码问题_PHP本地环境修乱码问题对策【修复】

nginx upstream timed out 但后端响应快的 keepalive 与超时调优

如何使用 NumPy 快速创建指定形状且元素全为 2 的数组

RTK Query 错误处理详解：正确捕获 400 等 HTTP 状态码异常

C#删除指定日期前的旧文件 C#如何清理过期的日志或备份文件

CSS内联样式使用禁忌_为什么不推荐在HTML标签内直接写style

Sublime怎么设置自动对齐代码_Sublime安装Alignment插件方法【实用】

如何用Golang实现日志记录系统_Golang日志管理与调试技巧