如何修复 PEG.js 中因字符范围 [A-z] 导致的变量名误匹配问题

11次阅读

如何修复 PEG.js 中因字符范围 [A-z] 导致的变量名误匹配问题

peg.js 中 `varname = [a-z0-9]+` 会错误匹配方括号等非法字符,根本原因是 `[a-z]` 并非等价于 `[a-za-z]`,而是包含了 ASCII 中 `’z’`(u+005a)到 `’a’`(u+0061)之间的所有字符(如 `[ ] ^ _ `),导致 `test[` 被截断为合法变量名,后续解析失败。

在您提供的 PEG.js 语法中,Varname 规则定义为:

Varname "variable name" = [A-z0-9]+ {   if(!/[A-z]+/.test(text()))     error(`Variable name must contain at least one letter. (reading '${text()}')`);   return text(); }

表面看是“匹配字母或数字”,但实际 [A-z] 是一个危险的字符范围:它等价于 [A-Z[]^_a-z](即从 ASCII 65’A’到 122’z’的全部字符),其中包含[、]、`、^、_、` 等符号。因此当输入 test[“foobar”] 时,[A-z0-9]+ 首先贪婪匹配 test[ —— 因为 [ 属于该范围 —— 导致 Getvar 规则将 name 解析为 “test[“,而 glob[“test[“] 显然不存在,从而抛出 Variable ‘test[‘ does not exist. 错误。

正确写法:显式限定字母范围

应将 [A-z] 替换为标准、安全的 [A-Za-z] 或更推荐的忽略大小写的 Unicode 字母写法

Varname "variable name" = [A-Za-z][A-Za-z0-9]* {   return text(); }

或使用 PEG.js 支持的 i 标志(不区分大小写)提升可读性与健壮性:

Varname "variable name" = [A-Z][A-Z0-9]*i {   return text(); }

? 注意:[A-Z]i 表示“首字符必须是英文字母(大小写均可)”,后续字符允许字母或数字(同样不区分大小写)。这既满足“至少含一个字母”的语义,又避免了 [A-z] 的陷阱。

同时,请确保 Getvar 规则末尾消耗空白,防止路径解析前残留空格干扰(您原规则已含 _,这点是正确的):

Getvar = name:Varname _ path:('[' _ exp:(String / Integer) _ ']' { return exp; })* {   let rt = glob[name];   if (rt === undefined && name !== 'undefined' && name !== 'null') {     error(`Variable '${name}' does not exist.`);   }   for (let p of path) {     rt = rt[p];   }   return rt; }

? 额外建议:增强变量名校验(可选)
若需支持更现代的标识符(如 Unicode 字母、下划线开头等),可结合 javaScript 的 /p{ID_Start}/u 思路(需运行时校验),但 PEG.js 原生不支持 Unicode 属性转义;此时推荐在动作代码中补充验证:

Varname "variable name" = chars:[A-Za-z0-9_]+ {    const s = text();   if (!/^[A-Za-z_][A-Za-z0-9_]*$/.test(s)) {     error(`Invalid variable name: '${s}'`);   }   return s; }

总结

  • ❌ 错误根源:[A-z] 是 ASCII 范围陷阱,绝不可用于“英文字母”意图;
  • ✅ 正确做法:用 [A-Za-z] 或 [A-Z]i 明确指定字母范围;
  • ✅ 必做检查:确保变量名首字符为字母(或 _),避免纯数字如 123 被误认为合法标识符;
  • ?️ 防御性设计:在语义动作中做二次校验,比纯语法层更可靠。

修正后,test[“foobar”] 将被准确拆分为 name = “test” + path = [“foobar”],顺利访问嵌套属性,不再触发意外截断。

text=ZqhQzanResources