Python如何格式化输出XML(带缩进)

11次阅读

python 3.9+ 直接用 xml.etree.ElementTree.indent() 就地缩进;低版本可用 xml.dom.minidom.toprettyxml()、手写递归函数或 lxml.etree.tostring(…, pretty_print=True),写入文件时须指定 encoding 和 xml_declaration。

Python如何格式化输出XML(带缩进)

xml.etree.ElementTreeindent() 函数最简单

Python 3.9+ 内置的 xml.etree.ElementTree 提供了 indent() 函数,直接对 Element 对象做就地缩进处理,无需第三方依赖。

  • 必须是 Python ≥ 3.9,低版本会报 AttributeError: module 'xml.etree.ElementTree' has no attribute 'indent'
  • indent() 修改的是原 Element 对象,不返回新对象,调用后需再用 ET.tostring()tree.write() 输出
  • 默认使用两个空格缩进,可通过 space 参数自定义,比如 indent(root, space="t")
import xml.etree.ElementTree as ET 

root = ET.fromstring("text") ET.indent(root, space=" ") # 就地缩进 print(ET.tostring(root, encoding="unicode"))

Python

低于 3.9 时,indent() 不可用。常见替代方案有二:

  • xml.dom.minidomtoprettyxml():兼容性好,但输出头部带 XML 声明(),且会多出空行
  • 手写递归缩进函数:可控性强,无额外依赖,但需注意文本节点处理(避免在纯文本前后加空格破坏内容)
  • 引入 lxml:功能强、速度快,支持 pretty_print=True,但属于第三方包,需 pip install lxml
import xml.dom.minidom 

rough_string = "text" reparsed = xml.dom.minidom.parseString(rough_string) print(reparsed.toprettyxml(indent=" ", encoding=None))

lxml.etreetostring(..., pretty_print=True) 更可靠

如果项目已用 lxml 或可接受新增依赖,这是目前最健壮的选择:它正确处理空白文本、不插入多余换行、支持编码和声明控制。

  • pretty_print=True 是关键字参数,不是方法名,别写成 .pretty_print()
  • 默认不带 XML 声明;如需添加,加 xml_declaration=True 并指定 encoding
  • 注意 lxml 解析时若源 XML 没有根节点或含非法字符,可能抛 XMLSyntaxError
from lxml import etree 

root = etree.fromstring("text") print(etree.tostring(root, pretty_print=True, encoding="unicode").strip())

缩进后输出文件时容易漏掉 encodingxml_declaration

直接 print() 看效果没问题,但写入文件时,忽略编码或声明常导致中文乱码或解析失败。

立即学习Python免费学习笔记(深入)”;

  • ET.ElementTree.write() 时,务必传 encoding="utf-8"xml_declaration=True(尤其当目标系统严格校验 XML 格式时)
  • lxmlwrite() 方法也需显式设 encoding,否则默认 ASCII,中文会崩
  • 避免用字符串拼接方式写文件——比如先 tostring()f.write(),容易因编码不一致出错

真正要落地到文件,优先走库原生的 write() 方法,而不是自己转字符串再写。

text=ZqhQzanResources