golang遍历字符串_按字节、按字符(rune)与高效迭代方案

1次阅读

按字节遍历字符串会乱码，因为go字符串底层是utf-8字节数组，String是只读字节序列（[]byte封装），非字符数组，需用for range按rune遍历。

Go 中 string 是只读的字节序列（[]byte 的封装），不是字符数组。直接用 for i := 0; i 取 <code>s[i] 拿到的是单个字节，对中文、emoji 等多字节 UTF-8 编码会截断，输出乱码或 panic（如越界访问）。

常见错误现象：s := "你好"; fmt.printf("%x", s[0]) 打印出 e4（UTF-8 第一字节），而非“你”的完整编码；若误用 s[2] 还可能越界。

for range 是 Go 唯一内置支持 UTF-8 安全迭代的方式：它自动解码字节流，每次迭代返回一个 rune（Unicode 码点）和该字符在字符串中的起始字节索引。

正确写法：

for i, r := range s {     fmt.Printf("index %d: rune %Un", i, r) }

如果逻辑需多次随机访问字符（如反转、取第 N 个字符），把字符串转成 []rune 是合理选择：

rs := []rune(s) for i, r := range rs {     // i 是字符序号，r 是 rune }

转换开销：一次遍历解码 + 分配新底层数组，时间 O(n)，空间 O(n)；对长字符串（MB 级）要谨慎
优势：后续所有索引操作都是 O(1)，且 len(rs) 就是字符数，语义清晰
替代方案：若只需首/尾字符，用 utf8.DecodeRuneInString(s) 和 utf8.DecodeLastRuneInString(s) 避免全量转换

对含中文的字符串做分词、按标点切割时，容易掉进性能坑：比如 strings.FieldsFunc(s, unicode.IsSpace) 或 regexp.MustCompile(`p{Han}+`).FindAllString(s, -1)，看似简洁，实则每次调用都重新扫描、分配、解码。

真正难的不是选哪种遍历方式，而是判断当前操作到底依赖字节位置、字符序号，还是 Unicode 语义——这三个维度在 Go 里天然不重合，混用就会出 bug。

发表于：后端开发

近一天内

复制链接

PowerShell 正则提取 HTML 字符串中第 N 个数字的完整教程

php怎么实现数据分页加载_php Ajax滚动加载更多内容【体验】