php如何截取字符串 php字符串截取函数怎么用【教程】

6次阅读

php截取中文字符串应优先用mb_substr($str, $start, $Length, ‘utf-8’),避免substr()按字节截取导致乱码;需显式指定编码,$start和$length均按字符数(unicode码点)计算;分隔符截取推荐strstr()或basename()等语义化函数。

php如何截取字符串 php字符串截取函数怎么用【教程】

substr() 是 PHP 字符串截取最常用函数,但中文下容易乱码

直接用 substr() 截取含中文的字符串,大概率出错——比如截出半个汉字、显示问号或空格。这是因为 substr() 按字节操作,而 UTF-8 中一个中文占 3 字节,切在中间就坏了。

实操建议:

  • 纯英文/ASCII 场景可放心用 substr($str, $start, $length)
  • 含中文时,优先改用 mb_substr($str, $start, $length, 'UTF-8'),显式指定编码
  • 如果不确定源字符串编码,先用 mb_detect_encoding($str) 探测,别硬写 'UTF-8'
  • 注意 mb_substr() 第四个参数是编码,不是可选;漏掉会按系统默认编码处理,linux 下常是 ISO-8859-1,一截就崩

mb_substr() 的 $start 和 $length 参数怎么算位置

很多人以为 $start = 2 就是“从第 3 个字符开始”,其实它数的是 Unicode 码点位置(对中文就是“第 3 个字”),不是字节偏移——这点和 substr() 的行为逻辑一致,但底层计算方式不同。

常见错误现象:

立即学习PHP免费学习笔记(深入)”;

  • mb_substr('你好世界', 2, 2) → 得到 '世界'(正确)
  • mb_substr('你好世界', 0, 4) → 得到 '你好世'$length=4 表示取 4 个字符,不是 4 字节)
  • 误把 $length 当成字节数传入,结果截得比预期短(尤其混排中英文时)

截取到某个字符前/后该用什么函数

不是所有截取都靠起始+长度,更多时候是“取冒号前面的内容”或“取最后一个斜杠之后的文件名”。这时候硬算位置很蠢,应该用语义化函数。

实操建议:

  • 按分隔符取前半部分:用 strstr($str, ':', true)(PHP 5.3+,第三个参数设为 true 返回匹配前内容)
  • 取后半部分:直接 strstr($str, ':')(返回包含冒号及之后全部)
  • 取最后一个路径段:basename($str),比 mb_substr($str, strrpos($str, '/') + 1) 安全得多
  • 避免用 explode() + array_shift() 截取,性能差且对空分隔符无保护

性能敏感场景下 substr() 和 mb_substr() 能不能混用

能,但必须清楚代价:mb_substr()substr() 慢 3–5 倍(实测千次调用差异明显),因为要解析多字节序列。如果你确定输入 100% 是 ASCII(比如用户 ID、Token、数字 ID),就别套 mb_*

判断依据很简单:

  • 字段来源是数据库VARCHAR 字段,且建表时指定了 utf8mb4?→ 用 mb_substr()
  • 字段值来自 $_GET['id'],且后端已校验为纯数字?→ 用 substr() 完全安全
  • 不确定来源,又不想承担乱码风险?宁可加一层 mb_check_encoding($str, 'UTF-8') 再分支处理

最常被忽略的一点:很多框架自动转义或过滤输入,你以为是原始字符串,其实已被 htmlentities() 处理过——这时再用 mb_substr() 可能截到 & 的编码片段,得先还原。

text=ZqhQzanResources