javaScript正则有两种创建方式:字面量(如/d+/)和构造函数(new regexp(“d+”),需双写反斜杠);test()返回布尔值,exec()返回匹配详情,match()/matchAll()更常用;业务模式应简洁实用,如邮箱^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$、国内手机号^1[3-9]d{9}$;数字校验须加^$边界;中文用[u4e00-u9fa5];空白用[suFEFFxA0]更稳;g标志影响lastIndex实现循环匹配,m使^$匹配行首尾,i忽略大小写,u支持Unicode;捕获组()提取内容,(?:)非捕获仅分组,(?)命名组更安全易读;优先满足核心场景,避免过度设计。

javascript 中 RegExp 的两种创建方式和基础用法
直接写正则字面量最常用,比如 /d+/;构造函数 new RegExp() 适合动态拼接模式,但要注意反斜杠要双写("\d+"),否则会出错。
常见错误:用构造函数时漏掉转义,比如想匹配 n,写成 new RegExp("n") 实际传入的是换行符,得写成 new RegExp("\n")。
-
test()返回布尔值,适合条件判断 -
exec()返回匹配详情(含index、groups),多次调用可配合g标志做迭代 -
String.prototype.match()和matchAll()更常用,尤其后者返回迭代器,支持命名捕获组
数字、邮箱、手机号这些「业务常用模式」怎么写才靠谱?
别照搬网上“万能邮箱正则”,^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$ 已经够用,再复杂反而难维护、易误判。手机号同理,国内就用 ^1[3-9]d{9}$,别硬塞港澳台或国际格式。
数字类注意边界:^d+$ 匹配纯数字字符串,但 "123abc" 会被 d+ 部分匹配;真要校验整个字符串,必须加 ^ 和 $。
立即学习“Java免费学习笔记(深入)”;
- 整数:
^-?d+$ - 小数(支持负号、可选小数位):
^-?d+(.d+)? - 中文字符:
[u4e00-u9fa5](别用p{Han},老浏览器不支持) - 空白字符(兼容各种空格):
[suFEFFxA0],比单纯s更稳
g、i、m 这些标志实际影响什么?
g 不只是“全局匹配”,它还让正则实例保持 lastIndex 状态——这是 exec() 能循环匹配的关键。没开 g,每次 exec() 都从头开始;开了却没重置 lastIndex,可能无限循环。
m(多行模式)只影响 ^ 和 $ 的行为:默认只认字符串首尾,开启后也认换行符 n 前后。但注意,它不会让 . 匹配换行符,那是 s 标志干的事(ES2018+ 支持,旧环境仍需 [sS] 替代)。
-
i:大小写不敏感,/abc/i匹配"AbC" -
u:启用 Unicode 模式,让u{1F600}这类四字节 emoji 正常工作,没它会拆成两个无效码点 - 多个标志连写:
/pattern/gim
捕获组、非捕获组、命名组,什么时候该用哪个?
普通括号 (...) 是捕获组,会把内容存进 result[1];如果只是逻辑分组、不需要提取内容,用 (?:...) 非捕获组,性能略好,数组索引也更清晰。
命名捕获组((?)在 matchAll() 或 exec() 结果里能通过 result.groups.name 访问,比靠索引安全得多。但注意:node.js 早于 v12、chrome 早于 64 不支持。
const text = "price: $19.99"; const regex = /price: $(?d+.d+)/; const match = text.match(regex); console.log(match.groups.amount); // "19.99"
嵌套捕获组容易数错索引,优先用命名组;但若目标环境不支持,就老老实实用非捕获组减少干扰。
正则不是越长越强,过度设计的模式难以调试、替换成本高。先跑通核心场景,再按需加边界处理——比如邮箱验证,先确保 @ 存在且不重复,比纠结 RFC 5322 合规性更实际。