如何使用正则表达式在 PHP 中精准提取营养成分数据(类别、数值、单位)

8次阅读

如何使用正则表达式在 PHP 中精准提取营养成分数据(类别、数值、单位)

本文介绍如何通过 preg_match_all 配合命名捕获组正则,从结构化文本中准确分离「标签名」「数值」和「单位」三部分,避免 preg_split 误切空格与标点导致的数据错乱。

在处理类似营养成分表的半结构化文本时,直接使用 preg_split(‘/[0-9].s/’, $content) 存在根本性缺陷:它试图“按数字+任意字符+空白”切割,但既无法区分数字是标签的一部分(如 Sodium, Na 中的 Na)还是真实数值起点,又会破坏浮点数(如 229.6104534866)的完整性,更无法保留括号、逗号等标签内合法符号——这正是你观察到 Total lipid (fat) 被错误拆分为多段的原因。

正确思路不是「分割」,而是「匹配提取」:每一行本质上是一个三元组 —— 非数字开头的标签(category) + 紧随其后的空白 + 连续数字与小数点组成的数值(value) + 后续空白 + 剩余单位字符串(unit)。因此应使用 preg_match_all() 配合精准锚定的模式:

$pattern = '~^(?PD+)s+(?P[d.]+)s+(?P.+)~m';

其中关键细节解析:

  • ^ 和 m 修饰符:确保 ^ 匹配每行开头(而非整个字符串开头);
  • (?PD+):D 匹配任意非数字字符,+ 表示至少一个,完美涵盖 Weight、Total lipid (fat)、Carbohydrate, by difference 等含空格、逗号、括号的完整标签;
  • s+:匹配一个或多个空白(空格/制表符),作为标签与数值间的分隔;
  • (?P[d.]+):明确限定数值仅由数字和小数点构成,排除单位中可能出现的 .(如 kcal 无点,但安全起见仍建议确保输入规范);
  • (?P.+):捕获剩余全部内容作为单位(g、kcal、mg 等),. 在 m 模式下不匹配换行符,保证单行匹配。

完整可运行示例:

立即学习PHP免费学习笔记(深入)”;

php $content = "Weight 229.6104534866 g Energy 374.79170898476 kcal Total lipid (fat) 22.163422468932 g Carbohydrate, by difference 13.641848209743 g Sugars, total 4.3691034101428 g Protein 29.256342349938 g Sodium, Na 468.99386390008 mg";  $pattern = '~^(?PD+)s+(?P[d.]+)s+(?P.+)~m'; preg_match_all($pattern, $content, $matches, PREG_SET_ORDER);  // 结构化输出示例 foreach ($matches as $match) {     echo sprintf(         "Label: '%s' | Value: '%s' | Unit: '%s'n",         trim($match['category']),         $match['value'],         trim($match['unit'])     ); } ?>

输出效果:

Label: 'Weight' | Value: '229.6104534866' | Unit: 'g' Label: 'Energy' | Value: '374.79170898476' | Unit: 'kcal' Label: 'Total lipid (fat)' | Value: '22.163422468932' | Unit: 'g' ...

优势总结:

  • 完整保留标签原始格式(支持空格、逗号、括号、连字符等);
  • 数值提取精确到小数点,无截断风险;
  • 单位自动捕获,无需额外处理;
  • PREG_SET_ORDER 返回每行一个关联数组,语义清晰,便于后续 jsON 化或数据库写入。

⚠️ 注意事项:

  • 若输入存在异常行(如无数字、数值含字母),该模式将跳过该行(preg_match_all 默认只返回完全匹配项),建议增加容错逻辑(如预过滤空行或使用 if (count($matches) === 0) 提示错误);
  • 如需兼容科学计数法(如 1.23e+04),可将 [d.]+ 扩展为 [d.]+(?:[eE][+-]?d+)?;
  • 实际项目中建议对 trim() 后的 category 和 unit 做进一步标准化(如去除多余空格、统一单位缩写)。

此方案以声明式正则替代过程式分割,兼顾鲁棒性与可维护性,是解析此类规则文本的推荐实践。

text=ZqhQzanResources