XPath是用于在xml文档中精准定位节点的查询语言,支持绝对路径(/)、后代选择(//)、属性选取(@)、条件筛选([])、文本提取(text())等语法,常配合python lxml等库使用,需注意大小写敏感、命名空间处理及表达式健壮性。

XPath 是一种用于在 XML 文档中定位节点的语言,它像“XML 的查询语句”,能精准地选中元素、属性、文本甚至特定条件下的节点,不依赖编程语言,但常配合 Python(lxml、xml.etree)、javaScript(document.evaluate)、Java(XPath API)等使用。
XPath 的基本语法和常见表达式
XPath 用路径表达式描述节点位置,类似文件系统路径,但支持更灵活的匹配逻辑:
- / 表示根节点或绝对路径起点,如 /bookstore/book 选取根下 bookstore 元素内的所有 book 子元素
- // 表示任意层级的后代节点,如 //title 匹配文档中任意位置的 title 元素
- @ 用于选取属性,如 //book/@category 获取所有 book 元素的 category 属性值
- [ ] 添加筛选条件,如 //book[price>35] 选出价格大于 35 的 book 元素;//book[1] 选第一个 book;//book[title=”Harry Potter”] 按文本内容匹配
- text() 提取文本节点,如 //title/text() 返回 title 元素的纯文本内容
在 Python 中用 lxml 实际操作 XPath
安装 lxml 后,可快速加载 XML 并执行查询:
- 用 etree.parse() 或 etree.fromstring() 加载 XML
- 调用 .xpath() 方法传入表达式,返回节点列表(可能为空)
- 对结果节点可继续调用 .xpath() 做相对路径查询,也可用 .get(“attr”) 取属性、.text 取文本
例如:读取
常用技巧与注意事项
XPath 表达式区分大小写,且默认不处理命名空间——若 XML 含 Namespace(如 xmlns=”http://example.com”),需在查询时显式声明前缀并注册命名空间字典。
- 避免写死索引如 [2],优先用有意义的条件(如属性值、子元素内容)保证健壮性
- 用 Boolean()、count()、contains(@class, “active”) 等函数增强判断能力
- 多个条件组合用 and / or,如 //book[@category=”tech” and price
- 如果查不到结果,先检查是否遗漏 // 或写错大小写,再确认 XML 结构是否含默认命名空间
基本上就这些。XPath 不复杂但容易忽略细节,多练习几个真实 XML 片段,很快就能熟练定位任意节点。