XPath轴是定位节点关系的核心机制,需用“轴名::节点测试[谓语]”格式,如child::div、parent::*、ancestor::form等,配合谓语可精准匹配动态结构中的目标节点。

XPath轴(Axes)是定位节点关系的核心机制,不是“额外功能”,而是理解父子、兄弟、祖先等结构的关键。它让XPath能跳出简单层级,按语义关系精准抓取目标节点。
常用轴及其典型写法
轴名必须后跟双冒号 ::,再接节点测试(如元素名、通配符 * 或谓语)。基本格式为:轴名::节点测试[谓语]。
- child:: —— 选直接子节点,
child::div等价于简写div(默认就是子轴) - parent:: —— 选父节点,
parent::*可回到上一级任意元素 - ancestor:: —— 选所有祖先(含父、祖父等),
ancestor::form找到最近的包裹表单 - following-sibling:: —— 选当前节点之后的同级节点,
following-sibling::p[1]取下一个<p></p> - preceding-sibling:: —— 选当前节点之前的同级节点,
preceding-sibling::h2[1]取上一个标题 - Attribute:: —— 选属性,
attribute::class或简写@class - descendant:: —— 选所有后代(不限层级),
descendant::a相当于//a
为什么用轴,而不是只靠 // 或 /?
当页面结构动态、id/class缺失或重复时,仅靠标签名或路径容易错位。轴能锚定相对位置,提升稳定性。
- 比如按钮没 id,但总在某个提示文字后面:用
//span[text()="提交成功"]/following-sibling::button - 比如要取表格中某行的最后一个单元格:用
tr[3]/td[last()],其中last()是函数,但tr[3]的定位可依赖ancestor::table轴确保上下文正确 - 避免误匹配:用
child::input只找直接子 input;而descendant::input会钻进所有嵌套层——该用哪个,取决于 html 结构意图
轴 + 谓语的实用组合
轴本身只定义方向,真正筛选靠谓语(方括号里的条件)。二者配合才能解决复杂场景。
- 找 class 包含 “btn” 的下一个兄弟按钮:
following-sibling::button[contains(@class, "btn")][1] - 找所有带 data-role 属性的祖先 div:
ancestor::div[@data-role] - 找前一个兄弟中文字为“备注”的 label:
preceding-sibling::label[text()="备注"] - 排除隐藏元素:
child::div[not(contains(@style, "display:none"))]
注意易错点
轴不是万能捷径,用错反而让表达式变脆弱。
- 别滥用 descendant-or-self::(简写为
//)——全文扫描慢,且易跨区域匹配 - self:: 和 . 功能一致,都指当前节点,但
.更简洁,无需写轴 - following:: 和 following-sibling:: 不同:前者包含所有后续节点(含子代),后者只限同级
- 轴名区分大小写,必须小写,如
child::不能写成Child::
基本上就这些。轴的本质是“以当前节点为起点,按关系走一步”,掌握好 child、parent、sibling、ancestor 这几个高频轴,再搭配谓语过滤,90% 的定位需求都能稳准解决。