php判断字符串长度含印地文_php印地文长度计算法【步骤】

5次阅读

strlen() 算不准印地文长度是因为它统计字节数而非 Unicode 字符数，如”हिन्दी”返回18字节但实际6字符；必须用mb_strlen($str, ‘UTF-8’)并确保字符串为合法UTF-8编码。

php 默认的 strlen() 和 mb_strlen() 在处理印地文（Devanagari）时，必须用 UTF-8 编码 + 正确的字符编码参数，否则返回的是字节数而非真实字符数。

为什么 `strlen()` 算不准印地文长度

印地文字符（如 "हिन्दी"）在 UTF-8 中每个字符占 2–3 字节。strlen() 只统计字节长度，不是 Unicode 字符个数。例如：strlen("हिन्दी") 返回 18（6 个字符 × 平均 3 字节），但实际是 6 个字符。

必须确保字符串本身是合法 UTF-8 编码（可用 mb_check_encoding($str, 'UTF-8') 验证）
服务器或脚本未声明 UTF-8 时，mb_* 函数可能默认用 ISO-8859-1，导致结果错误
不要依赖 iconv_strlen() —— 它对 Devanagari 的支持不稳定，尤其含合字（ligature）如 "त्त" 时易漏计

用 `mb_strlen()` 计算印地文真实字符数

这是最可靠方式，但必须显式传入 'UTF-8' 第二个参数。PHP 7.4+ 虽支持默认内部编码，但不建议省略。

正确写法：mb_strlen($str, 'UTF-8')
错误写法：mb_strlen($str)（依赖 mb_internal_encoding()，易被框架或配置覆盖）
若字符串来自表单或 API，先用 mb_convert_encoding($str, 'UTF-8', 'auto') 做容错转换，避免乱码干扰计数

验证印地文是否含有效 Devanagari 字符范围

仅靠长度不够，有时需确认字符串“确实是印地文”。可借助 Unicode 区块正则：

立即学习“PHP免费学习笔记（深入）”；

if (preg_match('/^[x{0900}-x{097F}x{0980}-x{09FF}]+$/u', $str)) {     // 属于天城文（印地文、梵文等）主区块 }

注意：x{0900}-x{097F} 是标准印地文字符区，x{0980}-x{09FF} 包含孟加拉文等邻近文字，按需调整。不要用 /[क-न]/u 这类简写 —— 合字、元音符号（मात्रा）、Virama（्）等不在连续区间内，会漏判。

特殊场景：含英文/数字混合的印地文字符串

比如 "हिन्दी123"，mb_strlen() 仍准确，但若要做“纯印地文字符占比”判断，需拆解：

用 preg_match_all('/[x{0900}-x{097F}]/u', $str, $matches) 提取所有天城文字符
避免用 str_split() 或 mb_str_split()（PHP 7.4+）直接切分 —— 某些组合字符（如 "क्‍ष"）会被错误断开
如需逐字符处理，优先用 grapheme_extract()（需启用 intl 扩展）或 preg_split('//u', $str, -1, PREG_SPLIT_NO_EMPTY)

印地文的合字结构和变音符号让“字符”边界比拉丁文模糊；mb_strlen() 给出的是 Unicode 码点数，不是视觉字形数（glyph count），这点在排版或输入限制场景中容易被忽略。

发表于：web3.0

四天前

复制链接

html5如何布局vh单位_html5视口高度布局技巧

2025年人工智能与区块链结合：五大加密货币介绍

Python SSL 握手过程解析

链上侦探必备工具箱：Debank、Arkham、Zerion功能详解与对比

Golang如何进行多路复用通信_Golang多路复用技术与应用

php判断字符串长度含印地文_php印地文长度计算法【步骤】

为什么 `strlen()` 算不准印地文长度

用 `mb_strlen()` 计算印地文真实字符数

验证印地文是否含有效 Devanagari 字符范围

特殊场景：含英文/数字混合的印地文字符串

C# CORS配置方法 C# ASP.NET Core如何配置跨域

tcp_max_syn_backlog 调大后 backlog full 的 net.core.somaxconn 同步调整

SQL数据库安全加固_防止误删与误操作机制

pure-ftpd 虚拟用户登录失败但系统用户正常的 PAM 配置对比

2026币圈公认十大交易所App 虚拟货币交易平台实力排行榜

C# AngleSharp解析HTML方法 C#如何像jQuery一样操作HTML DOM

css 盒模型 height auto 与固定高度区别_通过理解内容撑开机制使用

如何在Golang中实现函数_Golang函数定义、参数与返回值使用方法

C++ string find_first_of C++查找任意字符集合位置【函数】

如何优化Golang程序的内存使用效率_Golang内存使用优化策略

php判断字符串长度含印地文_php印地文长度计算法【步骤】

为什么 strlen() 算不准印地文长度

用 mb_strlen() 计算印地文真实字符数

验证印地文是否含有效 Devanagari 字符范围

特殊场景：含英文/数字混合的印地文字符串

为什么 `strlen()` 算不准印地文长度

用 `mb_strlen()` 计算印地文真实字符数