SQL 全文索引与 LIKE 模糊查询优化

7次阅读

全文索引比like更适合大规模中文文本模糊匹配,因like%开头无法用b+树索引致全表扫描,而fulltext需显式声明、match语法及布尔模式配合ngram或外部引擎方可有效支持中文分词。

SQL 全文索引与 LIKE 模糊查询优化

全文索引比 LIKE 更适合大规模文本的模糊匹配,尤其在中文场景下需特别注意分词和配置。

为什么 LIKE 查询慢?

LIKE 配合 % 开头(如 LIKE ‘%关键词%’)无法使用普通 B+ 树索引,只能全表扫描。即使有索引,LIKE ‘关键词%’ 仅能走最左前缀匹配,对中间或后缀模糊完全无效。数据量一过百万,响应常超数秒。

全文索引真正起效的关键点

mysqlFULLTEXT 索引不是“自动变快”,必须满足几个条件:

  • 字段类型需为 char、VARCHAR 或 TEXT,且建表/建索引时显式声明 FULLTEXT
  • 查询必须用 MATCH … AGAINST(…) 语法,不能混用 LIKE
  • 默认模式是自然语言模式(NATURAL LANGUAGE MODE),对单字词(如中文“数”“据”)不敏感——这是中文支持差的主因
  • 如需支持单字或短词检索,必须启用布尔模式:AGAINST(‘关键词’ IN Boolean MODE),并配合 +、* 等操作符(如 ‘+数 +据*’

中文全文检索要绕过的坑

MySQL 原生 FULLTEXT 对中文基本不友好:它按空格分词,而中文无天然分隔符。解决方法有二:

  • 升级到 MySQL 5.7.6+ 并启用 ngram 分词器:建索引时指定 WITH PARSER ngram,ngram_token_size 默认为 2(即按二字切分),可查“数据库”→匹配“数据”“库”“数据”“据库”
  • 更稳妥方案是接入外部引擎:elasticsearchsphinx,它们自带中文分词(如 IK、jieba),支持同义词、拼音、模糊音等高级特性

什么时候仍可用 LIKE 优化?

并非所有模糊场景都得上全文索引。以下情况可低成本提速:

  • 固定前缀模糊(如 LIKE ‘北京%’):给该字段加普通索引即可
  • 长度可控的后缀匹配(如查邮箱域名):用 REVERSE(email) + 函数索引(MySQL 8.0+ 支持函数索引),把 LIKE ‘%@qq.com’ 转为 REVERSE(email) LIKE ‘moc@qQ%’
  • 高频关键词可冗余字段:例如“标题”中常搜“教程”“入门”,额外加 boolean 字段 is_tutorial、is_beginner,查时直接走索引
text=ZqhQzanResources