SQL 高级查询技巧与优化

1次阅读

where子句中对字段使用函数（如year(create_time)=2023）会导致数据库无法使用索引而全表扫描；应改用范围查询，如create_time>=’2023-01-01′ and create_time

SQL 高级查询技巧与优化

数据库没法走索引，是因为你在 WHERE 里对字段用了函数，比如 WHERE YEAR(create_time) = 2023。mysql 和 postgresql 都会放弃索引，直接扫全表。

改成范围查询更安全：

WHERE create_time >= '2023-01-01' AND create_time
如果必须按月查，用 DATE_FORMAT(create_time, '%Y-%m') 要谨慎——它同样不走索引；优先考虑生成日期维度表或加计算列+索引
PostgreSQL 可以建函数索引：CREATE INDEX idx_create_year ON orders ((EXTRACT(YEAR FROM create_time)))，但 MySQL 8.0+ 才支持类似功能（虚拟列+索引）

SQL 不是线性执行的，优化器会重排 JOIN 顺序，但它的判断依赖统计信息是否准确、小表是否真“小”。你写的 FROM a JOIN b JOIN c 不代表实际执行顺序。

实操建议：

用 EXPLAIN 看 rows 和 type 字段：如果某张表显示 ALL 且 rows 很大，说明没走好索引或被当成了驱动表
强制小表驱动大表：在 MySQL 中可加 STRAIGHT_JOIN（仅限 INNER JOIN），但得先确认小表确实够小（比如 users 表只有几百行，而 orders 有千万级）
避免 select * 在多表 JOIN 中出现——字段越多，临时表越重，尤其涉及 GROUP BY 或 ORDER BY 时容易触发磁盘临时表

想查“每个用户最新一笔订单”，老写法是 SELECT * FROM orders o1 WHERE order_time = (SELECT MAX(order_time) FROM orders o2 WHERE o2.user_id = o1.user_id)，性能差还容易出错。

窗口函数更稳：

ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_time DESC) 是最常用的选择，注意 PARTITION BY 字段必须有索引支撑
PostgreSQL 和 MySQL 8.0+ 支持，但 sqlite 3.25+ 才开始支持，旧版本别硬上
别在 WHERE 里直接过滤窗口函数结果（比如 WHERE rn = 1），得套一层子查询或 CTE，否则报错：Window function is not allowed in WHERE clause

oracle 明确限制 IN 最多 1000 个值，MySQL 和 PostgreSQL 虽无硬限制，但传入几千个 ID 会导致解析慢、执行计划失准、甚至内存溢出。

更靠谱的做法：

拆成多个 IN 查询，每批 500 项以内，用应用层合并结果
把 ID 列表写进临时表（CREATE TEMPORARY table tmp_ids (id BIGINT PRIMARY KEY)），然后 JOIN，适合单次大批量场景
用 VALUES ROW 构造集（PostgreSQL）或 union ALL 拼接（MySQL），比长 IN 更易缓存执行计划

复杂点往往不在语法多难，而在统计信息不准、索引缺失、或者你以为的“小数据”其实在数据库眼里已经算大了。

发表于：数据库

近一天内

复制链接

如何在 Pandas 中清除列名或列数据中的时间戳（仅保留日期部分）

Clean URL重写：使用.htaccess实现PHP页面的SEO友好路径