标准且兼容性最好的方式是Base64编码,因xml仅支持Unicode文本,无法直接存储含控制字符或非法字节的二进制数据;Base64将其转为可打印ASCII字符并可用CDATA包裹确保安全。

在XML中嵌入二进制数据,标准且兼容性最好的方式是使用Base64编码,将原始字节序列转换为ASCII字符串后存入XML文本节点或属性中。
为什么必须用Base64编码
XML只支持Unicode文本(UTF-8/UTF-16等),不能直接存储任意二进制字节(如图片、pdf、音频的原始字节)。若强行写入,可能包含非法字符(如x00、x0C、控制字符)或破坏XML结构(如被误解析为标记)。Base64将每3字节转为4个可打印ASCII字符(A–Z, a–z, 0–9, +, /),并用=补位,完全规避非法字符问题。
如何正确编码与嵌入
编码过程需严格遵循RFC 4648;嵌入位置推荐使用元素内容(而非属性),避免长度和空白处理限制。
- 用标准库编码:python用base64.b64encode(data).decode(‘ascii’);java用Base64.getEncoder().encodeToString(bytes);javascript用btoa(String.fromCharCode(…))(注意需先转为Latin-1字符串)
- 写入XML时,建议包裹在CDATA段内,防止xml解析器对
- 务必声明编码方式,例如通过encoding=”base64″属性注明:
…
解析时的注意事项
解码前需清理空白字符(Base64允许换行和空格,但XML解析后可能残留),并验证填充符=数量是否合法(必须为0、1或2个,且只在末尾)。
- 去除所有换行符、制表符、空格后再解码,避免“Invalid character”错误
- 检查长度是否为4的倍数;不足则补=,但最多补两个
- 解码失败时优先排查是否混入了不可见Unicode空格(如U+200B零宽空格)
替代方案与不推荐做法
有人尝试用十六进制(hex)编码,虽可读性略高,但体积膨胀100%(2字符/字节),而Base64仅膨胀约33%,更节省空间。绝对不要用URL编码或自定义映射——缺乏通用性和工具支持。也不建议将二进制数据拆成多段拼接,易出错且无标准解析逻辑。