XML中CDATA和PCDATA的区别是什么

11次阅读

CDATA和PCDATA的核心区别在于xml解析器是否解析内容:前者用标记,完全跳过解析,保留原始文本;后者是元素内需解析的文本,必须转义特殊字符且可含子元素。

XML中CDATA和PCDATA的区别是什么

CDATA 和 PCDATA 的核心区别在于:XML 解析器是否对其中的内容进行解析。前者完全跳过解析,后者必须解析并处理特殊字符和嵌套结构。

PCDATA 是会被解析的文本内容

PCDATA(Parsed Character Data)指元素标签之间那些需要被 XML 解析器检查的内容。它可能只含纯文本,也可能混有子元素,比如:

  • Hello & World 中的 Hello & World 就是 PCDATA,& 必须写成实体 &,否则报错;
  • liMing 中整个内容也是 PCDATA,因为允许嵌套子元素;
  • 在 DTD 中声明为 ,表示该元素只能含可解析的文本或子元素,不能直接放原始代码或未转义符号。

CDATA 是不被解析的“原始文本块”

CDATA(Character Data)不是一种数据类型声明,而是一种语法标记:。它告诉解析器:“这段内容别管,原样保留”。常见于以下场景:

  • 嵌入 javaScript 或 css 代码,比如 ,其中 >& 全部无需转义;
  • 存放大段含 XML 风格符号的日志、配置片段或示例 XML;
  • 只能出现在元素内容中,不能用于属性值或 DTD 声明内部。

别混淆 CDATA 属性类型和 CDATA 节

DTD 中的 CDATA 是属性的数据类型(如 ),它和 没有关系:

  • 属性里的 CDATA 表示该属性值是字符串,但仍需对 &"' 等做实体转义;
  • 是内容节,彻底绕过解析,连实体引用(如  )也不会展开;
  • PCDATA 只出现在元素声明中,不能用于属性;属性只能用 CDATA、ID、IDREF 等类型。

简单判断方法

遇到一段内容,问自己两个问题:

  • 它是否在一对标签之间,且可能含子元素或需要识别 & 这类符号?→ 用 PCDATA(默认行为,通常不用显式标注);
  • 它是否是一整块不想被解析的“黑盒文本”,比如代码、日志、html 片段?→ 包进
  • 它是否是某个属性的值,且只是普通字符串?→ 在 DTD 或 Schema 中声明为 CDATA 类型,但写入时仍要转义特殊字符。
text=ZqhQzanResources