
本文详解如何正确处理 `preg_match_all` 提取的带 html 标签的字符串数值(如 `
`),并将其可靠转换为整数,避免 `(int)` 强制类型转换导致归零问题。
在使用 curl 抓取 html 表格数据后,许多开发者会借助正则表达式(如 preg_match_all)提取数字内容。但一个常见误区是:直接对包含 HTML 标签的完整匹配结果进行 (int) 转换,例如:
preg_match_all("/[0-9]{1,2}.[0-9]{2} /m", $result, $match); $test = $match[0][0]; // 实际值是 "10.00 ",而非 "10.00" var_dump((int)$test); // 输出 int(0) —— 因为 php 从字符串开头解析数字,遇到 '<' 即停止
这是因为 $match[0] 存储的是整个匹配项(含
),而非纯数字。PHP 的 (int) 类型强制转换仅从字符串起始处读取连续数字字符,一旦遇到非数字字符(如
✅ 正确做法是:在正则中使用捕获组(parentheses)精准提取纯数字部分,再统一转换:
// ✅ 推荐:用捕获组提取数字(去除标签) preg_match_all("/([0-9]{1,2}.[0-9]{2}) /m", $result, $matches); // $matches[1] 是第一个捕获组的内容(即纯数字字符串) $numbersAsFloat = array_map('floatval', $matches[1]); // 先转 float,保留小数精度 $numbersAsInt = array_map('intval', $matches[1]); // 或直接 intval(等价于 (int)) // 更严谨的整数转换(四舍五入或截断?) $roundedInts = array_map(function($str) { return (int)round((float)$str); // 如需四舍五入:10.70 → 11 }, $matches[1]); print_r($roundedInts); // 示例输出: [10, 10, 10, 1, 12]
⚠️ 注意事项:
立即学习“PHP免费学习笔记(深入)”;
- 不要依赖 strip_tags() 作为主方案:虽然 strip_tags($match[0][0]) 可得 "10.00",但若 HTML 结构复杂(如嵌套标签、属性含 >),strip_tags 可能误删或失效;
- intval() 与 (int) 行为一致,均向零截断;若需四舍五入,请用 round(floatval($str));
- 正则模式建议增强健壮性:例如支持可选空格、千分位符或负号,可改写为:
/s*([-+]?d{1,3}(?:,d{3})*(?:.d{2})?)s*/(需配合 str_replace(',', '', ...) 预处理); - 生产环境强烈建议改用 dom 解析器(如 DOMDocument + XPath),避免正则解析 HTML 的固有风险。
总结:核心在于「先分离、再转换」——通过正则捕获组获取干净数值字符串,再使用 intval()、floatval() 或 round() 等函数按需转换。这既保证了数据准确性,也提升了代码可维护性与健壮性。