ElementTree 是 python 标准库中轻量易用的 xml 解析模块,采用树形结构建模,支持加载、遍历、查找、修改和生成 XML;适合结构清晰的日常场景,复杂需求则用 lxml。

Python 的 xml.etree.ElementTree(常简写为 ElementTree)是标准库中轻量、易用的 XML 解析模块,适合处理结构清晰、不涉及复杂命名空间或 DTD 验证的日常 XML 场景。它采用树形结构建模 XML,核心是 Element 对象,支持遍历、查找、修改和生成。
加载 XML:从文件或字符串开始
解析前先获得根元素,这是所有操作的起点。
- 从文件读取:
tree = ET.parse('data.xml'); root = tree.getroot() - 从字符串解析:
root = ET.fromstring(xml_string)(注意:传入的是完整 XML 字符串,不是文件路径) - 如果只是想快速查看结构,可直接打印
root.tag或ET.dump(root)(调试用,不返回值)
遍历与查找元素:用好 find / findall / iter
ElementTree 不支持 XPath 全语法,但提供简洁实用的路径查找方式(仅支持层级 + 标签名,如 'book/author',不支持 // 或属性过滤)。
-
root.find('child_tag'):返回第一个匹配的直接子元素(None 表示没找到) -
root.findall('child_tag'):返回所有直接子元素列表(空列表表示无匹配) -
root.iter('tag_name'):深度优先遍历整棵树,返回所有匹配标签的迭代器(含嵌套层级) - 路径可多级,例如
root.findall('book/author')查找所有<book></book>下的<author></author>
读取元素内容和属性
每个 Element 对象像字典一样管理属性,用 .text 和 .tail 获取文本内容。
立即学习“Python免费学习笔记(深入)”;
-
elem.text:元素开始标签和结束标签之间的文本(如<name>Alice</name>中的"Alice") -
elem.attrib:一个字典,存所有属性(如<book id="101"></book>→{'id': '101'}) -
elem.get('attr_name'):安全获取属性值,未定义时返回 None 或指定默认值(elem.get('id', 'unknown')) -
elem.tail:元素结束标签后的文本(较少用,通常用于格式化保留)
构建与写入 XML:边解析边修改或全新生成
ElementTree 不仅能读,也能写。常用操作包括创建新元素、设置属性、添加子节点、保存到文件。
- 新建元素:
new_elem = ET.Element('item', attrib={'id': '202'}) - 添加子元素:
new_elem.append(ET.SubElement(new_elem, 'title'))或直接赋值new_elem.text = 'Python Guide' - 修改已有元素:
elem.set('updated', 'true')或elem.text = 'new content' - 保存到文件:
tree.write('output.xml', encoding='utf-8', xml_declaration=True)
基本上就这些。ElementTree 上手快、代码干净,对多数配置文件、API 返回的简单 XML 完全够用。需要更高级功能(如完整 XPath、命名空间自动处理、DTD 验证)时,再考虑 lxml 库。