怎么用SQL找出连续登录超过N天的用户_SQL查询连续登录用户

31次阅读

要找出连续登录超过N天的用户，需利用ROW_NUMBER()为每个用户的登录日期排序，再通过登录日期减去序号生成“连续组标识”，相同标识的记录属于同一连续段，随后按用户和组标识统计天数并筛选≥N天的记录。该方法能正确处理跨月跨年情况，且可通过(user_id, login_date)索引优化性能，适用于大规模数据查询。

要用SQL找出连续登录超过N天的用户，核心思路是先将每个用户的连续登录日期进行分组，然后统计每个分组的日期数量，最后筛选出那些数量达到或超过N天的用户。这通常涉及到窗口函数（如

ROW_NUMBER()

）和日期函数来巧妙地创建“连续组”标识。

解决方案

这个问题，我第一次遇到时，感觉有点像在玩一个数字谜题。表面上看是简单的日期比较，但要找出“连续”这个概念，就得玩点花样了。这里我提供一个基于通用SQL（兼容MySQL, PostgreSQL等）的解决方案，它利用了窗口函数来识别连续的日期序列。

假设我们有一个

user_logins

表，结构如下：

CREATE TABLE user_logins (     user_id INT,     login_date DATE );  -- 示例数据 INSERT INTO user_logins (user_id, login_date) VALUES (1, '2023-01-01'), (1, '2023-01-02'), (1, '2023-01-03'), (1, '2023-01-05'), -- 中断 (1, '2023-01-06'), (1, '2023-01-07'), (2, '2023-01-01'), (2, '2023-01-02'), (3, '2023-01-01'), (3, '2023-01-03'), (3, '2023-01-04'), (3, '2023-01-05');

我们要找出连续登录超过N天（比如N=3）的用户。

WITH UserLoginSequence AS (     -- 为每个用户的每次登录按日期排序，生成一个序号     SELECT         user_id,         login_date,         ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_date) AS rn     FROM         user_logins     -- 考虑到可能同一天多次登录，我们通常只关心不同的登录日期     -- 如果表确保每天只有一条记录，则无需DISTINCT     -- SELECT DISTINCT user_id, login_date FROM user_logins ), ConsecutiveLoginGroups AS (     -- 关键一步：通过 login_date 减去其在序列中的序号，     -- 如果日期是连续的，那么 login_date - rn 的结果会是一个常数。     -- 这个常数就成了我们识别连续登录组的“组标识”。     SELECT         user_id,         login_date,         -- 对于PostgreSQL/SQL Server: (login_date - INTERVAL '1 day' * rn)         -- 对于MySQL: DATE_SUB(login_date, INTERVAL rn DAY)         DATE_SUB(login_date, INTERVAL rn DAY) AS login_group_id     FROM         UserLoginSequence ), GroupedConsecutiveLogins AS (     -- 统计每个用户、每个连续登录组的日期数量     SELECT         user_id,         login_group_id,         COUNT(login_date) AS consecutive_days_count     FROM         ConsecutiveLoginGroups     GROUP BY         user_id, login_group_id     -- 筛选出连续登录天数大于或等于N（这里我们设N=3）的组     HAVING         COUNT(login_date) >= 3 -- 将3替换为你需要的N值 ) -- 最后，选择出符合条件的用户ID，并去重 SELECT DISTINCT     user_id FROM     GroupedConsecutiveLogins;

对于上述示例数据，当N=3时，会返回

user_id = 1

和

user_id = 3

。用户1有’2023-01-01′, ‘2023-01-02’, ‘2023-01-03’（3天），以及’2023-01-05’, ‘2023-01-06’, ‘2023-01-07’（3天）。用户3有’2023-01-03’, ‘2023-01-04’, ‘2023-01-05’（3天）。

为什么直接计算日期差值行不通？理解连续性的陷阱

初次接触这类问题，很多人（包括我，在初学SQL时）可能会直觉地想：“是不是只要计算相邻两天登录的日期差值就行了？”比如，用

LAG()

函数取出前一天的登录日期，然后判断

DATEDIFF(current_date, previous_date) = 1

。这个思路对于判断“一对”相邻日期是否连续是有效的，但它无法直接识别出“一段”连续的登录序列。

举个例子，用户A在1号、2号、4号登录了。

LAG()

会告诉你：

2号相对于1号是连续的（差值1）。
4号相对于2号是不连续的（差值2）。

但我们想要的是找出“1号、2号”是一个连续序列，而“4号”是另一个独立的序列。如果只是简单地判断相邻差值，我们很难将1号和2号归为一个“连续组”。一旦遇到中断，比如3号没登录，那么4号和2号的差值就大于1了，它就无法和之前的序列连接起来。我们需要的是一个能够“重置”连续性计数或分组的机制，而

login_date - ROW_NUMBER()

的技巧，正是提供了一个这样的“组标识”，它在连续日期内保持不变，一旦日期中断，这个标识就会改变。这是一种非常巧妙的“分组”方式，它将连续的日期映射到同一个“魔法值”上。

如何处理跨月或跨年的连续登录数据？日期函数的巧妙运用

上面提到的

DATE_SUB(login_date, INTERVAL rn DAY)

方法，其美妙之处就在于它天然地处理了跨月或跨年的情况。

login_date

是一个完整的日期，

rn

只是一个整数。无论

login_date

是

2023-12-31

还是

2024-01-01

，减去相应的天数后，只要它们原本是连续的，得到的

login_group_id

就会是相同的。

例如：

用户A在

2023-12-30

登录，

rn=1

->

2023-12-30 - 1 day = 2023-12-29

用户A在

2023-12-31

登录，

rn=2

->

2023-12-31 - 2 days = 2023-12-29

用户A在

2024-01-01

登录，

rn=3

->

2024-01-01 - 3 days = 2023-12-29

看到了吗？尽管日期跨越了年，但因为它们是连续的，计算出的

login_group_id

都是

2023-12-29

。这个“魔法值”并不代表实际的任何日期意义，它只是一个巧妙的数学构造，用来标识那些在原始序列中连续的日期。所以，你不需要特别去担心月份或年份的边界问题，SQL的日期算术和

ROW_NUMBER()

的结合已经为你考虑到了。这让我们的查询逻辑变得非常简洁和强大，避免了编写复杂的

CASE WHEN

来处理日期边界。

Outwrite

ai写作浏览器插件，将您的想法变成有力的句子

41

查看详情

性能优化：面对海量登录日志，SQL查询还能更快吗？

当

user_logins

表数据量达到千万甚至上亿级别时，上述CTE（Common Table Expression）的查询性能就不得不考虑了。

ROW_NUMBER()

是一个窗口函数，通常会消耗较多资源，尤其是在大数据集上。

以下是一些优化思路：

索引优化：
- 在
  user_logins
  表的
```
(user_id, login_date)
```
  列上创建复合索引。这是最重要的优化手段。
```
PARTITION BY user_id ORDER BY login_date
```
  操作会极大地受益于这个索引，因为它能快速定位到每个用户的登录记录，并按日期排序。
- 如果查询经常需要筛选特定时间范围内的登录，也可以考虑在
  login_date
  上单独建立索引。
数据预处理/物化视图：
- 对于非常大的表，如果这类查询是高频操作，可以考虑定期将
  UserLoginSequence
  或
```
ConsecutiveLoginGroups
```
  的结果预计算并存储到一个临时表或物化视图中。这会牺牲一些实时性，但能显著提升查询速度。例如，每天计算前一天的数据，或每周计算过去一周的数据。
数据库分区：
- 如果
  user_logins
  表非常庞大，可以考虑按
  login_date
  进行分区。这样，当查询只需要分析某个时间段的数据时，数据库可以只扫描相关的分区，而不是整个表。
SQL方言特定优化：
- MySQL 8.0+：虽然MySQL的窗口函数性能有所提升，但仍需注意。
- PostgreSQL：PostgreSQL在窗口函数方面通常表现良好，可以利用其更高级的优化器特性。
- SQL Server：可以利用其索引视图和查询提示来进一步优化。
减少不必要的列：
- 在
  UserLoginSequence
  CTE中，我们只选择了
```
user_id
```
  和
  login_date
  。避免在CTE中选择不必要的列，可以减少内存和I/O开销。
DISTINCT

的开销：
- 如果在
  user_logins
  表中，
```
user_id
```
  和
  login_date
  的组合本身就是唯一的（即一个用户一天只登录一次），那么在
  UserLoginSequence
  CTE中就没有必要使用
```
SELECT DISTINCT user_id, login_date
```
  ，直接
```
SELECT user_id, login_date
```
  即可，这能节省一次去重操作的开销。如果存在同一天多次登录的情况，
```
DISTINCT
```
  是必要的，但要意识到其潜在的性能成本。