使用ROW_NUMBER()窗口函数可高效去重,通过PARTITION BY分组、ORDER BY排序,筛选rn=1保留每组首行,如按user_id保留最早订单;调整ORDER BY可保留最新或最高金额记录;相比DISTINCT和GROUP BY,窗口函数更灵活精准,支持复杂业务逻辑。

在mysql中,使用窗口函数去重是一种高效且灵活的方法,尤其适用于需要保留某些排序规则或额外信息的场景。相比传统的 DISTINCT 或 GROUP BY,窗口函数可以更精细地控制哪些重复数据被保留。
使用 ROW_NUMBER() 窗口函数去重
最常用的窗口函数去重方式是结合 ROW_NUMBER() 和子查询,为每组重复数据分配行号,然后筛选出第一行。
例如,有一张用户订单表 user_orders,结构如下:
user_id, order_date, amount
如果想根据 user_id 去重,只保留每个用户的第一条订单记录,可以这样写:
SELECT * FROM ( SELECT *, ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date) AS rn FROM user_orders ) t WHERE rn = 1;
这里 PARTITION BY user_id 表示按用户分组,ORDER BY order_date 决定组内排序,ROW_NUMBER() 为每行分配一个序号,取 rn = 1 即可保留最早的一条记录。
根据条件选择保留最新或最高优先级记录
去重时不一定非要保留第一条,可以根据业务需求调整 ORDER BY 子句。
比如要保留每个用户的最新订单:
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date DESC) AS rn
或者想保留金额最高的订单:
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rn
通过灵活设置排序规则,可以在去重的同时保留最有价值的数据行。
与其他窗口函数配合实现复杂去重逻辑
除了 ROW_NUMBER(),还可以使用 RANK() 或 DENSE_RANK(),但注意它们对并列值的处理方式不同。
例如,多个订单金额相同且都是最高值,使用 RANK() 可能让多行获得排名 1,导致去重失败(多行保留)。
因此,在严格去重场景下推荐使用 ROW_NUMBER(),它始终为每行生成唯一序号,确保每组只保留一行。
基本上就这些。合理利用窗口函数不仅能精准去重,还能结合排序、分组等逻辑满足复杂业务需求,比传统方法更具可读性和扩展性。