
计算用户连续登录天数,核心是识别“日期是否连续”——用当前日期减去按用户分组、按日期排序后的行号,相同结果即为同一连续段。
准备基础数据:去重+格式标准化
真实日志中常存在同天多次登录、时间戳带时分秒等问题,需先清洗:
- 用 date(login_time) 提取纯日期,忽略具体时间
- 对 (user_id, login_date) 去重,避免重复计数干扰连续性判断
- 确保 login_date 是 DATE 类型,否则窗口函数排序可能出错
关键思路:用“日期 – 行号”生成连续组标识
对每个用户按登录日期升序排列,生成行号(row_number)。连续日期的特征是:日期递增,行号也递增 → 二者差值恒定。
例如:2024-01-01、02、03 → 行号为1、2、3 → 差值均为 2024-01-01 → 这个固定差值就是该连续段的“锚点”。
sql写法示例:
select user_id, login_date,
DATE_SUB(login_date, INTERVAL ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_date) DAY) AS group_tag
FROM clean_login;
统计每段连续登录的起止与天数
基于上一步的 group_tag,按 user_id 和 group_tag 分组,即可聚合出每一段连续登录的信息:
- MIN(login_date) 是起始日,MAX(login_date) 是结束日
- count(*) 就是该段连续天数
- 若只关心“最长连续天数”,在外层加 MAX(cnt) 即可
SELECT user_id,
MIN(login_date) AS start_date,
MAX(login_date) AS end_date,
COUNT(*) AS days_consecutive
FROM (
SELECT user_id, login_date,
DATE_SUB(login_date, INTERVAL ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_date) DAY) AS group_tag
FROM clean_login
) t
GROUP BY user_id, group_tag;
延伸:筛选“连续登录≥7天的用户”
在上一结果基础上加 HAVING 或子查询过滤即可。注意不是“某天起连登7天”,而是存在任意一段 ≥7 天的连续记录:
- 用 HAVING COUNT(*) >= 7(在 GROUP BY 后限制)
- 或用 EXISTS + 子查询,更利于后续关联其他用户维度
- 如需返回具体哪7天,保留中间 group_tag 字段便于追溯