XPath中合并节点集用|操作符,它将两个节点集去重后取并集;仅适用于同类型节点集,不支持字符串、数字或跨类型节点(如text()与@attr)混合合并。

XPath 中合并两个节点集,主要用 |(管道符/并集操作符),它不是“拼接”或“嵌套”,而是把两个节点集去重后合并成一个新节点集。
用 | 合并两个独立路径结果
这是最常用的方式。只要左右两边都是有效的节点集表达式,就能用 | 连接,返回所有匹配节点的并集(自动去重)。
- 例如:
//book/title | //book/author匹配所有<title></title>和所有<author></author>元素,不管它们在哪个<book></book>下。 - 再如:
//div[@class="header"] | //div[@class="footer"]把页面中所有 header 和 footer 的 div 合并选取。
注意:| 只支持节点集,不支持字符串或数字
| 是专门用于节点集的操作符,不能混用其他类型:
- ✅ 正确:
//a | //img(两个元素节点集) - ❌ 错误:
//a/text() | //img/@src因为text()返回文本节点集,@src返回属性节点集——虽然都是节点,但 XPath 1.0 中不同类型的节点不能直接用 | 合并(多数解析器会报错或忽略)。 - ⚠️ 小技巧:若真需混合提取,可分别执行两次 XPath,或改用支持更灵活数据模型的工具(如 XPath 2.0+ 或配合 XSLT)。
和 +、,、union() 的区别
别混淆其他符号:
- +:是算术加法,只对数字有效,不能合并节点集。
- ,:在某些 XPath 实现(如浏览器 DevTools 的部分扩展)或 XPath 2.0+ 中可用作序列连接符,但标准 XPath 1.0 不支持;不是通用写法。
- union():不是 XPath 内置函数,是某些库(如 lxml 的扩展)或 XQuery 中的概念,原生 XPath 没这个函数。
基本上就这些。记住核心:合并节点集,只用 |,确保两边都是合法的节点路径,别混类型,也不用想太复杂——它就是个简洁的“取并集”操作符。