PySpark 窗口函数：结合时间范围与行数限制的动态历史聚合

5次阅读

本文介绍如何在 pyspark 中构建复合窗口，同时满足“最近 n 行”和“最近 m 天”双重约束，通过 `collect_list` + `Filter` 实现精准的历史结构化聚合。

在实际时序数据分析中，仅依赖固定行数（如 rowsBetween(-2, -1)）或纯时间范围（如 rangeBetween 配合 date 列）往往不够灵活——例如业务要求：“对每个记录，收集其前 2 条且日期不超过 10 天的历史记录”。PySpark 原生窗口不支持直接混合 rowsBetween 与时间条件，但可通过两阶段策略优雅解决：先用宽泛行窗口预聚合，再用 filter 表达式按时间动态裁剪。

核心思路如下：

构造结构化内容列：使用 Struct(‘id’, ‘date’, ‘value’) 将所需字段打包为嵌套结构，便于后续统一处理；
定义宽松行窗口：rowsBetween(-3, -1)（预留冗余行，确保覆盖可能的 2 行+边界情况），配合 orderBy(‘date’) 和 partitionBy(‘id’) 保证逻辑顺序；
后置时间过滤：利用 filter(history, x -> x.date >= date – interval 10 days) 动态剔除超期记录（注意：示例中为 interval 2 day 仅为演示，实际应改为 interval 10 days）；
结果格式化（可选）：若需输出为字符串形式（如 (1, 2023-05-01, 200)），可追加 transform + concat 或 UDF，但推荐保持 Array 类型以利下游计算。

✅ 完整可运行代码（已修正为 10 天约束）：

from pyspark.sql import SparkSession from pyspark.sql import functions as F from pyspark.sql.window import Window from datetime import datetime  spark = SparkSession.builder.appName("window-history").getOrCreate()  # 示例数据（注意：date 使用 datetime 类型，确保 interval 计算准确） df = spark.createDataFrame([     (1, datetime(2023, 1, 1), 100),     (1, datetime(2023, 5, 1), 200),     (1, datetime(2023, 5, 2), 300),     (1, datetime(2023, 5, 3), 400),     (1, datetime(2023, 5, 4), 500) ], ['id', 'date', 'value'])  # 两阶段窗口：先取最多前3行 → 再过滤掉超过10天的记录 result_df = (     df     .withColumn('content_struct', F.struct('id', 'date', 'value'))     .withColumn(         'history',         F.collect_list('content_struct').over(             Window.orderBy('date').partitionBy('id').rowsBetween(-3, -1)         )     )     .withColumn(         'history',         F.expr("filter(history, x -> x.date >= date - interval 10 days)")     ) )  result_df.select('id', 'date', 'value', 'history').show(truncate=False)

⚠️ 关键注意事项：

时间类型必须为 timestampType：若 date 是字符串，需先用 to_timestamp(‘date’, ‘yy yy-MM-dd’) 转换，否则 interval 计算无效；
rowsBetween 的负值含义：-3 表示当前行向上数第 3 行（含），-1 表示上一行，因此 (-3,-1) 实际捕获最多 3 行（倒序索引：-3,-2,-1）；为严格满足“最多 2 行”，可设为 (-2,-1) 并在 filter 后截断：.withColumn(‘history’, F.slice(‘history’, 1, 2))；
性能提示：filter 在 collect_list 后执行，属于 Catalyst 优化后的高效操作；但若数据量极大且时间窗口极宽，建议先用 where 预过滤分区数据；
空值安全：filter 对空数组返回空数组，无需额外 coalesce。

最终 history 列为 array> 类型，既保持强类型语义，又支持后续 inline, element_at, 或 aggregate 等高级操作——这才是生产环境推荐的数据形态。

发表于：开发工具

五天前

复制链接

composer和phar打包分发有什么关系

python如何删除list

VSCode自动闭合标签配置

Git Blame in VS Code：快速定位每一行代码的修改者

C++中__stdcall和__cdecl有什么区别_C++函数调用约定深度解析【考点】

PySpark 窗口函数：结合时间范围与行数限制的动态历史聚合

pure-ftpd 虚拟用户无法 chdir 的 ChrootEveryone 配置细节

javascript闭包是什么_怎样理解作用域链【教程】

Sublime怎么使用列编辑模式 Sublime鼠标中键多行操作【神器】

在Docker容器中如何高效使用Composer？ (缓存卷配置)

javascript循环有哪些方式_如何跳出循环【教程】

Linux 服务回滚失败的补救方案

CSS 中重叠元素背景色混合问题的解决方案

Python 正则回溯导致性能问题的原因

Nuxt 3 中在路由中间件中安全调用 i18n 路由方法的正确实践

Python 数据结构选择对程序性能的影响