Python解析XML命名空间 findall方法匹配带ns的标签

2次阅读

findall() 默认不识别命名空间，必须显式传入 Namespaces 参数或使用 {uri}tag 格式；命名空间 uri 必须与 xml 声明完全一致，否则匹配失败。

因为 findall() 默认不识别命名空间，XML 中像 <node></node> 这种写法，直接传 "ns:node" 或 "node" 都会返回空列表——它既不解析前缀，也不自动展开 URI。

常见错误现象：root.findall("item") 返回 []，但用 root.iter() 能看到所有节点；或者写成 "ns:item" 报 ParseError: prefix 'ns' not found in prefix map。

命名空间必须显式传入 namespaces= 参数，不能只靠标签字符串里的前缀
findall() 的路径语法只支持简单层级（如 "ns:channel/ns:item"），不支持 XPath 函数或轴（如 ./following-sibling::*）
如果 XML 声明了默认命名空间（xmlns="http://example.com/ns"），连 "item" 都匹配不到——它其实等价于 "{http://example.com/ns}item"

字典 key 是你在 XPath 字符串里用的前缀（比如 "rss"），value 必须是完整的命名空间 URI 字符串，且**必须和 XML 中声明的一模一样**（包括末尾斜杠、大小写）。

使用场景：RSS 解析、SOAP 响应、自定义 XSD 校验后的 XML。

URI 中的空格、换行、多余斜杠都会导致匹配失败，建议从原始 XML 复制粘贴，不要手敲
key 可以任意取（"r"、"feed" 都行），但一旦在路径中用了 "r:channel"，就必须有 {"r": "http://..."}
没有前缀的默认命名空间不能用空字符串作 key，得用 {"" : "http://..."}，但注意：部分旧版 ElementTree 不支持空 key，稳妥起见统一用显式前缀

当 XML 根节点写了 xmlns="http://purl.org/rss/1.0/"，所有子标签实际都属于这个 URI，但你不能写 findall("item") —— 它会被当成无命名空间标签处理。

必须把 URI 显式“套”进标签名：用 "{http://purl.org/rss/1.0/}item" 这种格式，且 namespaces 参数可省略（因为没用到前缀）。

两者对命名空间的处理机制完全一致，区别只在返回值：一个是列表，一个返回单个元素。但容易被忽略的是——find() 找不到时返回 None，而 findall() 返回空列表，这直接影响 if result: 判断是否成立。

性能影响：在深层嵌套或大文件中，find() 可能比 findall() 略快（找到第一个就停），但差异通常可忽略；真正耗时的是反复调用或写错 namespace 导致全量遍历。

命名空间不是语法糖，是 XML 的刚性约束；写错一个字符，整个解析链就静默失败。最麻烦的往往不是不会写，而是调试时没意识到问题出在 URI 多了个空格，或者把 xmlns:dc 里的 dc 当成了标签名的一部分。

发表于：开发工具

近一天内

复制链接

c# 如何用 C# 实现一个简单的 Actor 模型

如何让导航栏实现 sticky 固定定位效果？