如何修复 PEG.js 中因字符范围 [A-z] 导致的变量名匹配错误

16次阅读

如何修复 PEG.js 中因字符范围 [A-z] 导致的变量名匹配错误

peg.js 中 `varname = [a-z0-9]+` 会意外匹配 `[` 和 `]` 等非法字符,根本原因是 `[a-z]` 并非等价于 `[a-za-z]`,而是包含 ASCII 码 91–96(即 `[ ] ^ _ `)之间的所有符号,需改用 `[a-za-z]` 或更安全的 `[a-z0-9_]i` 并启用忽略大小写标志。

在 PEG.js 语法中,字符类 [A-z] 是一个常见但危险的误区。它看似表示“从大写 A 到小写 z 的所有字母”,实则依据 ASCII 编码表展开:’Z’ 的编码是 90,’a’ 是 97,因此 [A-z] 实际匹配的是 ASCII 码 65–122 范围内的所有字符——不仅包含 A–Z(65–90)、a–z(97–122),还额外包含了 [(91)、(92)、](93)、^(94)、_(95)、`(96)这 6 个非字母符号

这正是你遇到问题的根源:当输入 test[“foobar”] 时,PEG.js 的 Varname 规则尝试贪婪匹配最长前缀,[A-z0-9]+ 会一路吞掉 test[(因为 [ 属于该范围),导致后续解析失败,并抛出 Variable ‘test[‘ does not exist. 的错误。

✅ 正确写法(推荐):

Varname "variable name"   = [A-Za-z][A-Za-z0-9_]* { return text(); }

或更简洁、支持忽略大小写的写法(PEG.js 支持 i 标志):

Varname "variable name"   = [A-Z0-9_]+i {        const name = text();       if (!/[A-Z]/i.test(name)) {         error(`Variable name must contain at least one letter. (reading '${name}')`);       }       return name;     }

⚠️ 注意事项:

  • 不要使用 [A-z]、[a-Z] 等跨 ASCII “断层”的范围——它们不可靠且易引入隐蔽 bug
  • 变量名通常还需支持下划线 _(如 user_name),建议显式加入:[A-Za-z_][A-Za-z0-9_]*;
  • 若需 Unicode 字母支持(如中文变量名),PEG.js 原生不支持 p{L},需借助插件或预处理,生产环境建议坚持 ASCII 命名规范;
  • 在 Getvar 规则末尾务必添加 _ 消耗尾部空白,避免因空格导致路径解析中断:
    Getvar   = name:Varname _ path:('[' _ exp:(String / Integer) _ ']' { return exp; })* {       let rt = glob[name];       if (rt === undefined && name !== 'undefined' && name !== 'null') {         error(`Variable '${name}' does not exist.`);       }       for (const p of path) rt = rt[p];       return rt;     }

? 总结:字符类是 PEG.js(及多数正则引擎)中最易被低估的陷阱之一。始终用明确、无歧义的范围(如 [A-Za-z])替代看似简写的 [A-z];结合 i 标志可提升可读性与健壮性;并通过单元测试覆盖边界用例(如 a[, test_1], x123[)来验证解析行为是否符合预期。

text=ZqhQzanResources