如何正确将含命名空间的 RSS(如 iTunes 扩展)转换为 JSON

6次阅读

如何正确将含命名空间的 RSS(如 iTunes 扩展)转换为 JSON

php 使用 `simplexml_load_string()` 解析 rss 时,默认无法处理带冒号的 xml 命名空间标签(如 ``),导致数据丢失;需在解析前将 `:` 替换为 `_`,使标签名兼容 php 对象属性规则。

RSS 提要常包含来自不同命名空间的扩展字段,尤其是播客(Podcast)类 RSS 中广泛使用的 标签(如 等)。这些标签在 XML 中合法,但当使用 PHP 的 SimpleXML 加载后转为 jsON 时,会因冒号(:)不符合 PHP 变量/属性命名规范而被忽略或解析失败——根本原因并非 json_encode() 本身,而是 simplexml_load_string() 在构建对象树时无法将含 : 的标签名映射为有效的 PHP 属性。

你原始代码中的问题在于两处冗余且有害的字符串预处理:

$fileContents = str_replace(array("n", "r", "t"), '', $fileContents); // 删除空白符 → 破坏格式,非必需 $fileContents = trim(str_replace('"', "'", $fileContents));              // 错误转义引号 → 可能损坏属性值

这些操作不仅不必要,还可能破坏 XML 结构(例如干扰 CDATA 或属性值中的引号),加剧解析异常。

✅ 正确做法是:仅对命名空间分隔符 : 进行标准化替换,将其统一转为下划线 _,从而生成合法的 PHP 属性名(如 itunes:subtitle → itunes_subtitle),再交由 simplexml_load_string() 安全解析。

以下是优化后的健壮解析函数:

function rssToJson($url) {     $xmlContent = file_get_contents($url);     if ($xmlContent === false) {         throw new RuntimeException("Failed to fetch RSS feed from: $url");     }      // ✅ 关键修复:仅将命名空间冒号替换为下划线,保留 XML 结构完整性     $normalizedXml = str_replace(':', '_', $xmlContent);      $simpleXml = simplexml_load_string($normalizedXml, 'SimpleXMLElement', LIBXML_NOCDATA);     if ($simpleXml === false) {         throw new RuntimeException("Failed to parse XML: " . implode(', ', libxml_get_errors()));     }      return json_encode($simpleXml, JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT); }  // 使用示例 try {     $json = rssToJson('https://example.com/podcast.rss');     echo $json; } catch (Exception $e) {     error_log('RSS Parse Error: ' . $e->getMessage()); }

⚠️ 注意事项:

  • 不要删除换行/缩进:XML 格式无需“压缩”,simplexml 能高效处理标准格式;
  • 避免引号替换:原始引号是 XML 属性值的一部分(如 href=”https://…”),擅自替换会破坏结构;
  • 启用错误报告:添加 LIBXML_NOCDATA 可防止文本节点被转为 CDATA 对象,libxml_get_errors() 有助于调试解析失败;
  • 命名空间声明保留:xmlns_itunes 等属性仍会以 @attributes 形式存在(如 “xmlns_itunes”: “http://www.itunes.com/dtds/podcast-1.0.dtd”),可用于后续验证;
  • json 字段命名一致性:所有 itunes_xxx 字段将原样出现在 JSON 中(如 “itunes_subtitle”: “Subtitle text here”),可直接被前端或下游服务消费。

总结:RSS 到 JSON 的转换失败,本质是 XML 命名空间与 PHP 对象模型的兼容性问题。通过精准的 : → _ 预处理,即可零侵入地桥接二者,完整保留 iTunes 等扩展字段,无需依赖第三方库(如 DOMDocument 或 xml_parser_*),兼顾简洁性与可靠性。

text=ZqhQzanResources