php如何去除字符串重复 php字符串去重技巧【要点】

2次阅读

php字符串去重应先用str_split()或mb_str_split()转字符数组,再array_unique()保序去重,最后implode()拼接;中文/emoji必须用mb_str_split(),否则乱码。

php如何去除字符串重复 php字符串去重技巧【要点】

array_unique() 配合 str_split() 去除字符串中重复字符

PHP 没有内置的「字符串去重」函数,直接对字符串操作容易误删空格、换行或大小写敏感字符。最稳妥的做法是先拆成字符数组,再用 array_unique() 去重,最后拼回字符串。

常见错误现象:str_replace() 或正则反复替换,结果只删了一次重复、漏掉连续重复;或用 count_chars($s, 3) 只能取唯一字符集但丢失原始顺序。

  • str_split() 把字符串转为单字符数组(注意:UTF-8 多字节字符需用 mb_str_split(),否则中文会乱)
  • array_unique() 默认保留首次出现的键,顺序不变
  • implode('', ...) 拼回去,别用 join() —— 虽然等价,但 implode() 更通用、可读性更强

示例(处理英文):

$s = "hello"; $result = implode('', array_unique(str_split($s))); // "helo"

处理中文或 Emoji 时必须用 mb_str_split()

PHP 的 str_split() 按字节切分,遇到 UTF-8 编码的中文、Emoji 就会截断成乱码。比如 str_split("你好") 可能返回 6 个无效字节片段。

使用场景:用户昵称、标签、搜索关键词等含中文的输入清洗。

立即学习PHP免费学习笔记(深入)”;

  • 确认当前脚本编码是 UTF-8(mb_internal_encoding('UTF-8') 最好提前设好)
  • mb_str_split($s, 1) 第二个参数必须是 1,表示按 1 个 Unicode 字符切
  • PHP 版本低于 7.4 的话,mb_str_split() 不存在,得手写兼容逻辑(如用 preg_split('//u', $s, -1, PREG_SPLIT_NO_EMPTY)

示例(含中文):

$s = "你好hello"; $result = implode('', array_unique(mb_str_split($s, 1))); // "你好helo"

count_chars($s, 3) 只适合取字符集,不能保序或去重子串

这个函数常被误当作「去重工具」,但它只返回字符串中所有出现过的字符组成的字符串,按 ASCII 码升序排列,完全不管原始顺序,也不处理重复子串(比如 “aab” → “ab” 是对的,但 “baa” → 还是 “ab”)。

性能影响:比 array_unique() + str_split() 快一点,但牺牲了顺序和语义准确性。

  • 返回值是字符串,不是数组,没法做进一步键值操作
  • 不区分大小写?不,它严格区分 Aa
  • 如果只是判断「是否含重复字符」,用 strlen($s) !== strlen(count_chars($s, 3)) 是高效写法

想按词去重(不是按字)?得先分词,别硬套字符级函数

比如字符串 "apple banana apple",想变成 "apple banana",这不是字符去重,是「单词去重」。用 str_split() 会把每个字母拆开,彻底跑偏。

正确路径:先用 explode(' ', $s) 或更健壮的 preg_split('/s+/', trim($s)) 分词,再 array_unique(),最后 implode(' ', ...)

  • 注意空元素:分词后可能有空字符串,加 array_filter() 清理
  • 大小写敏感?需要统一转小写再比较,但要注意保留原始大小写输出(得用 array_column() + array_keys() 手动映射)
  • 标点符号没清理的话,"apple.""apple" 会被视为不同词

实际用的时候,最易忽略的是多字节字符处理——看着代码跑通了,一上生产遇到中文就出错,不是函数问题,是默认假设了 ASCII。另外,「去重」目标到底是什么,得先问清楚:是去重字符?去重词?还是去重行?选错起点,后面全白调。

text=ZqhQzanResources