Pandas 中高效实现时间区间匹配并添加新列的完整教程

1次阅读

本文介绍如何使用 pd.merge_asof() 高效完成两个 dataframe 的“按分组 + 时间区间内匹配”操作，避免低效嵌套循环，在数十万行数据下将耗时从 10 分钟降至毫秒级。

在数据分析中，常需将事件时间（如设备触发时刻）映射到其所属的时间窗口（如产线作业班次、设备维护周期），并携带对应属性（如工单编号、状态值、测量值等）。本例中，df1 包含按 LOT 分组的事件记录（含 EVENT_TIME），df2 提供每个 LOT 下多个时间窗口（IN_TIME → OUT_TIME）及其关联值 VALUE；目标是为 df1 每一行匹配同一 LOT 下且满足 IN_TIME ≤ EVENT_TIME ≤ OUT_TIME 的 VALUE，生成新列 DATA。

直接使用双重 for 循环（如原问题所示）时间复杂度为 O(n×m)，面对 10 万+ 行数据极易超时。pandas 提供了专为此类场景优化的 merge_asof() —— 它基于排序合并（sort-merge join），支持按键分组、左表时间列与右表时间列的最近向下匹配（nearest backward join），再辅以条件过滤，即可精准实现“区间内匹配”。

✅ 正确步骤与代码实现

首先确保所有时间列已转为 datetime64 类型（merge_asof 强制要求）：

import pandas as pd  # 构造示例数据 df1 = pd.DataFrame({     'LOT': ['A', 'A', 'A', 'A', 'A', 'A'],     'SLOT': [1, 2, 3, 4, 5, 6],     'EVENT_TIME': ['2024-01-20 13:30', '2024-01-20 13:36',                    '2024-01-21 14:28', '2024-01-21 14:30',                    '2024-01-21 14:32', '2024-01-21 14:34'] })  df2 = pd.DataFrame({     'LOT': ['A', 'A'],     'IN_TIME': ['2024-01-20 13:20', '2024-01-21 14:25'],     'OUT_TIME': ['2024-01-20 13:40', '2024-01-21 14:50'],     'VALUE': [13, 15] })  # ✅ 关键：统一转为 datetime df1['EVENT_TIME'] = pd.to_datetime(df1['EVENT_TIME']) df2['IN_TIME'] = pd.to_datetime(df2['IN_TIME']) df2['OUT_TIME'] = pd.to_datetime(df2['OUT_TIME'])

接着使用 merge_asof 实现高效匹配：

# Step 1: merge_asof — 按 LOT 分组，对 EVENT_TIME 在 IN_TIME 上做「向后最近匹配」 # 注意：df2 必须按 by + right_on 排序（merge_asof 自动要求，此处已满足） result = pd.merge_asof(     df1.sort_values('EVENT_TIME'),      # 左表必须按 left_on 列升序排序     df2.sort_values('IN_TIME'),         # 右表必须按 right_on 列升序排序     by='LOT',                           # 分组键（确保只在相同 LOT 内匹配）     left_on='EVENT_TIME',               # 左表时间列     right_on='IN_TIME',                 # 右表起始时间列（作为匹配锚点）     allow_exact_matches=True,           # 允许 EVENT_TIME == IN_TIME（必需）     direction='backward'                # 默认行为：取 ≤ EVENT_TIME 的最大 IN_TIME（即最近前一个窗口起点） )  # Step 2: 过滤掉超出 OUT_TIME 的误匹配（merge_asof 只保证 IN_TIME ≤ EVENT_TIME，不检查上限） result = result.assign(DATA=Lambda x: x['VALUE'].where(x['EVENT_TIME'] <= x['OUT_TIME']))  # Step 3: 清理冗余列，重命名/整理输出 result = result.drop(columns=['IN_TIME', 'OUT_TIME', 'VALUE']).rename(columns={'DATA': 'DATA'})

最终 result 即为目标结构：

LOT	SLOT	EVENT_TIME	DATA
A	1	2024-01-20 13:30:00	13.0
A	2	2024-01-20 13:36:00	13.0
A	3	2024-01-21 14:28:00	15.0
A	4	2024-01-21 14:30:00	15.0
A	5	2024-01-21 14:32:00	15.0
A	6	2024-01-21 14:34:00	15.0

? 为什么用 merge_asof 而非 merge 或 apply？ merge 无法直接表达“时间在区间内”的条件（需笛卡尔积 + 布尔索引，O(n×m) 空间爆炸）； apply + lambda 本质仍是逐行 python 循环，无向量化加速； merge_asof 是 Pandas 底层 C 实现的排序合并，复杂度接近 O(n + m)，百万级数据通常在 100ms 内完成。

⚠️ 注意事项与最佳实践

排序强制要求：merge_asof 要求左表按 left_on、右表按 right_on 严格升序排列，否则结果不可靠。务必先 .sort_values() 并重置索引（或使用 ignore_index=True）。
区间方向敏感：direction='backward' 匹配 IN_TIME ≤ EVENT_TIME 的最大值；若窗口定义为 (start, end] 或需向上取整，请结合 tolerance 或预处理时间边界。
缺失值处理：未匹配到任何窗口的行，VALUE 将为 NaN，where() 后仍为 NaN —— 符合业务语义（事件不在任何有效窗口内）。
多匹配冲突：若一个 EVENT_TIME 落入多个重叠窗口，merge_asof 仅返回 IN_TIME 最大的那一个（因 backward 取最近）。如需全部匹配结果，请改用 pd.IntervalIndex + loc（适用于中小规模 df2）。
性能验证建议：对真实大数据集，可添加 %%time 魔法命令对比 merge_asof 与原 for 循环耗时，典型提升达 1000× 以上。

掌握 merge_asof 的区间匹配模式，不仅能解决本例的 DATA 列注入问题，还可扩展应用于金融行情快照绑定、iot 传感器事件归因、日志会话分析等高频场景——关键在于将“范围条件”拆解为“有序锚点匹配 + 边界校验”两步，兼顾效率与准确性。

发表于：后端开发

近一天内

复制链接

EF Core AddRange怎么用 EF Core批量插入数据教程

XML解析报错not well-formed怎么解决 XML格式检查方法

优化Pytesseract文本检测：使用页面分割模式（PSM）

css引入样式文件时出现错误如何调试_通过开发者工具检查加载情况

如何让三列布局中嵌套的子元素（如标题、内容区块）高度统一

Pandas 中高效实现时间区间匹配并添加新列的完整教程

✅ 正确步骤与代码实现

⚠️ 注意事项与最佳实践

VSCode + Jupyter：数据科学家的理想笔记本环境

如何在Laravel中实现基于角色的权限控制？ (Spatie/laravel-permission)

PHP怎么生成HMAC消息认证密钥_PHP生成HMAC密钥用法【汇总】

c++中如何实现二分查找_c++二分查找算法实现

Scrapy 中跨解析函数传递变量的正确方法

css布局如何实现移动端列表自适应_结合百分比宽度和flex

PHP如何批量创建文件夹_PHP自动生成多个目录【方法】

php怎么部署线上迁移_从a服务器搬b服务器要备份啥【教程】

mysql函数权限如何设置_mysql安全配置方法

如何获取HTTP_X_REAL_IP变量_PHP获取Nginx真实IP设置方法【操作】