go语言字符串以UTF-8编码存储且不可变,len()返回字节数,需用utf8.RuneCountInString()获取字符数;遍历中文应使用for range或[]rune;修改需转为[]rune操作后再转回;拼接大量字符串宜用strings.Builder避免性能问题。

Go 语言中的字符串是开发中使用最频繁的类型之一,掌握其特性和操作方法能有效避免常见错误。核心要点是:字符串不可变且底层以 UTF-8 编码存储,这直接影响了长度计算、遍历和修改等操作。
字符串定义与基础特性
Go 中的字符串用双引号或反引号定义。双引号内的字符串支持转义字符,如 n 表示换行;反引号定义原生字符串,内容会原样保留,常用于多行文本或正则表达式。
- 字符串默认值是空字符串 “”,不能赋值为 nil(除非使用 *string 指针)。
- 字符串是只读的,无法通过 s[i] = ‘a’ 直接修改单个字节。
- 字符串底层是字节序列,一个中文字符通常占 3 个字节。因此 len() 返回的是字节数而非字符数。
常用操作与正确遍历方法
处理字符串时,strings 包提供了丰富的工具函数。对于包含中文的字符串,必须用正确方式遍历,否则会出现乱码。
- 查找子串:strings.Contains(s, substr) 判断是否包含;strings.Index(s, substr) 返回首次出现的位置。
- 替换与分割:strings.Replace(s, old, new, n) 可指定替换次数;strings.Split(s, sep) 按分隔符拆分成切片。
- 去除空格:strings.TrimSpace(s) 去掉首尾空白;strings.Trim(s, cutset) 去掉指定字符。
- 大小写转换:strings.ToLower(s) 和 strings.ToUpper(s)。
- 安全遍历中文:使用 for range 循环,它会自动按 Unicode 字符(rune)遍历。若需索引,可将字符串转为 []rune 切片再用普通 for 循环。
常见陷阱与规避策略
理解底层机制才能避开坑。最常见的问题源于对“字节”和“字符”的混淆,以及字符串的不可变性。
立即学习“go语言免费学习笔记(深入)”;
- 修改字符串:不能直接改。正确做法是先转成 []rune 切片,修改后再转回字符串。避免转 []byte 修改,因为可能破坏 UTF-8 编码,导致乱码。
- 长度误区:len(s) 是字节数。要获取字符数,应使用 utf8.RuneCountInString(s) 或 len([]rune(s))。
- 性能问题:用 + 频繁拼接大量字符串效率低。应使用 strings.Builder 或 fmt.Sprintf 来优化。
- 类型转换:在 string 和 []byte 间转换会复制数据,开销大。若需共享内存,可用 unsafe 包,但风险高,不推荐新手使用。
基本上就这些,关键在于记住字符串是 UTF-8 字节流且不可变。