javascript正则表达式如何使用_有哪些常用匹配模式?

15次阅读

javaScript正则有两种创建方式:字面量(如/d+/)和构造函数(new regexp(“d+”),需双写反斜杠);test()返回布尔值,exec()返回匹配详情,match()/matchAll()更常用;业务模式应简洁实用,如邮箱^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$、国内手机号^1[3-9]d{9}$;数字校验须加^$边界;中文用[u4e00-u9fa5];空白用[suFEFFxA0]更稳;g标志影响lastIndex实现循环匹配,m使^$匹配行首尾,i忽略大小写,u支持Unicode;捕获组()提取内容,(?:)非捕获仅分组,(?)命名组更安全易读;优先满足核心场景,避免过度设计。

javascript正则表达式如何使用_有哪些常用匹配模式?

javascriptRegExp 的两种创建方式和基础用法

直接写正则字面量最常用,比如 /d+/;构造函数 new RegExp() 适合动态拼接模式,但要注意反斜杠要双写("\d+"),否则会出错。

常见错误:用构造函数时漏掉转义,比如想匹配 n,写成 new RegExp("n") 实际传入的是换行符,得写成 new RegExp("\n")

  • test() 返回布尔值,适合条件判断
  • exec() 返回匹配详情(含 indexgroups),多次调用可配合 g 标志做迭代
  • String.prototype.match()matchAll() 更常用,尤其后者返回迭代器,支持命名捕获组

数字、邮箱、手机号这些「业务常用模式」怎么写才靠谱?

别照搬网上“万能邮箱正则”,^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$ 已经够用,再复杂反而难维护、易误判。手机号同理,国内就用 ^1[3-9]d{9}$,别硬塞港澳台或国际格式。

数字类注意边界:^d+$ 匹配纯数字字符串,但 "123abc" 会被 d+ 部分匹配;真要校验整个字符串,必须加 ^$

立即学习Java免费学习笔记(深入)”;

  • 整数:^-?d+$
  • 小数(支持负号、可选小数位):^-?d+(.d+)?
  • 中文字符:[u4e00-u9fa5](别用 p{Han},老浏览器不支持)
  • 空白字符(兼容各种空格):[suFEFFxA0],比单纯 s 更稳

gim 这些标志实际影响什么?

g 不只是“全局匹配”,它还让正则实例保持 lastIndex 状态——这是 exec() 能循环匹配的关键。没开 g,每次 exec() 都从头开始;开了却没重置 lastIndex,可能无限循环。

m(多行模式)只影响 ^$ 的行为:默认只认字符串首尾,开启后也认换行符 n 前后。但注意,它不会让 . 匹配换行符,那是 s 标志干的事(ES2018+ 支持,旧环境仍需 [sS] 替代)。

  • i:大小写不敏感,/abc/i 匹配 "AbC"
  • u:启用 Unicode 模式,让 u{1F600} 这类四字节 emoji 正常工作,没它会拆成两个无效码点
  • 多个标志连写:/pattern/gim

捕获组、非捕获组、命名组,什么时候该用哪个?

普通括号 (...) 是捕获组,会把内容存进 result[1];如果只是逻辑分组、不需要提取内容,用 (?:...) 非捕获组,性能略好,数组索引也更清晰。

命名捕获组((?...))在 matchAll()exec() 结果里能通过 result.groups.name 访问,比靠索引安全得多。但注意:node.js 早于 v12、chrome 早于 64 不支持。

const text = "price: $19.99"; const regex = /price: $(?d+.d+)/; const match = text.match(regex); console.log(match.groups.amount); // "19.99"

嵌套捕获组容易数错索引,优先用命名组;但若目标环境不支持,就老老实实用非捕获组减少干扰。

正则不是越长越强,过度设计的模式难以调试、替换成本高。先跑通核心场景,再按需加边界处理——比如邮箱验证,先确保 @ 存在且不重复,比纠结 RFC 5322 合规性更实际。

text=ZqhQzanResources