JavaScript字符串比较大小时所遵循的字符编码规则

2次阅读

javascript字符串比较基于Unicode码点字典序:逐字符比对码点值,短串在前缀相同时更小;大写字母(65–90)小于小写字母(97–122),中文、emoji等同理;需本地化排序时应使用localeCompare()。

JavaScript字符串比较大小时所遵循的字符编码规则

JavaScript 字符串比较大小,用的是 Unicode 码点值(code point)的字典序比较,不是按中文语义、拼音或长度,也不是按 ASCII 仅限英文。只要用 ><===(严格相等)等操作符比较两个字符串,引擎就会逐字符比对它们在 Unicode 中的数值大小。

按 Unicode 码点逐位比较

比较从左到右进行:先比第一个字符的码点,小的字符串整体更小;若相等,继续比第二个;直到某一位不同,或其中一个字符串结束。

  • "a" < "b"truea 的码点是 97,b 是 98)
  • "abc" < "abd"true(前两位相同,第三位 c(99) < d(100))
  • "ab" < "abc"true(前两位相同,但 "ab" 更短,较短者“更小”)
  • "Z" > "a"trueZ 码点是 90,a 是 97?错!其实是 false,因为 90 < 97 → 所以 "Z" < "a"

大写字母确实排在小写字母前面

这是常被忽略的关键点:Unicode 中 A–Z(65–90)在 a–z(97–122)之前。所以:

  • "Apple" < "apple"true(首字符 A(65) < a(97))
  • "Zebra" > "apple"falseZ(90) < a(97),所以 "Zebra" 更小)

中文、emoji 和特殊符号也按 Unicode 码点算

汉字不是按拼音或笔画排序,而是按其在 Unicode 中的分配位置。例如:

立即学习Java免费学习笔记(深入)”;

  • "中"(U+4E2D, 码点 20013)> "啊"(U+554A, 码点 21834)false(20013 < 21834,所以 "中" < "啊"
  • "?"(U+1F60A, 码点 128522)> "中"true(128522 > 20013)
  • "1" < "A" < "a"true(数字 0–9:48–57,大写 A–Z:65–90,小写 a–z:97–122)

如需按语言习惯排序,请用 localeCompare()

默认比较不支持本地化规则(比如中文按拼音、德语 ß 视为 ss、忽略大小写等)。正确做法是:

  • "apple".localeCompare("Banana") → 负数(按英语规则,忽略大小写可配选项)
  • "北京".localeCompare("上海", "zh-CN", { numeric: true, sensitivity: "base" }) → 按中文拼音排序
  • 返回值:负数(前者小)、0(相等)、正数(前者大),语义清晰且可国际化

不复杂但容易忽略:字符串比较本质是数字比较——每个字符换成它的 Unicode 数字,再从左到右比大小。写业务逻辑时,别想当然认为 "Z" > "a",也不该直接用 > 排中文列表。

text=ZqhQzanResources