XML文件如何分割成小文件 Python脚本按节点拆分XML

3次阅读

用 xml.etree.elementtree 拆分大 xml 文件最稳：采用 iterparse 流式解析，按 record/item 节点边读边切，深拷贝节点后构造新根写入，手动处理命名空间、编码、非法文件名及特殊字符，避免 oom 和序列化错误。

用 `xml.etree.ElementTree` 拆分大 XML 文件最稳

python 自带的 xml.etree.ElementTree 足够应付大多数按节点拆分的需求，不用装第三方库，也不容易因编码或命名空间崩掉。它不加载整个树到内存（用 iterparse 时），适合几百 MB 级别的文件。

关键不是“怎么读”，而是“怎么切”——得避开把整棵树 parse() 进内存再切的坑，否则 1GB 文件直接 OOM。

用 ET.iterparse() 流式读取，边读边判断是否该写入新文件
每个子文件从根节点开始构造，但只塞当前要拆出的节点及其子树
注意 start 和 end 事件的区别：用 end 才能拿到完整子树
遇到 Comment 或 ProcessingInstruction 节点要手动跳过，否则 write() 会报 TypeError: cannot serialize None

按 `record` 或 `item` 节点拆分的实际写法

假设原始 XML 是扁平结构，比如日志、导出数据：<root><record id="1">...</record><record id="2">...</record></root>，目标是每个 record 单独成文件。

不能直接对 record 调用 write()，因为没根节点；也不能硬塞 <root></root>，有些下游系统认不出嵌套根。

立即学习“Python免费学习笔记（深入）”；

推荐方案：每个小文件保留原根名，仅含一个 record，即 <root><record ...>...</record></root>
用 ET.Element(root_tag) 创建新根，subelement.append(record_copy) 塞进去
record 要深拷贝：用 ET.fromstring(ET.tostring(record)) 最保险，避免引用残留
文件名建议用属性值，如 f"output_{record.get('id', i)}.xml"，但得先处理空值或非法字符（/ : * ? " |）

`iterparse` 遇到命名空间就报错？这样绕过去

如果 XML 有 xmlns="http://xxx"，elem.tag 会变成 {http://xxx}record，直接写 if elem.tag == 'record' 永远不匹配。

别急着用 lxml——自带模块就能解，只是得手动剥离。

在 iterparse 前加 events=('start-ns',) 捕获命名空间，但通常不需要存，直接忽略
更简单：统一用 elem.tag.split('}')[-1] 取本地名，if tag_name == 'record'
如果必须保留命名空间写入新文件，得在新建根节点时传 nsmap 参数，且所有子节点创建时用带前缀的 QName，实操中极少需要
注意：ET.tostring() 默认不写 xmlns，若下游要求必须带，得手动设 root.set('xmlns', ns_uri)

中文乱码、换行丢失、缩进错乱怎么办

ET.write() 默认用 ASCII 编码 + 无缩进 + unix 换行符，和人眼预期差距很大，但改起来很琐碎。

编码必须显式指定：tree.write(path, encoding='utf-8', xml_declaration=True)，否则 windows 记事本打不开
缩进没有内置支持，Python 3.9+ 可用 ET.indent(tree)，旧版本只能用正则或字符串替换（不推荐）
换行符默认是 n，Windows 用户想双击打开不折行，得自己后处理：读取后替换 n 为 rn
特别注意：如果原 XML 有 DTD 或外部实体，ElementTree 默认不解析，也不会写入新文件——这反而是好事，避免 XXE 风险

拆分逻辑本身不难，难的是边界情况：空节点、混合文本与子元素、属性里带 XML 特殊字符、超长 CDATA。这些不会报错，但会导致下游解析失败，得在写入前加一层 ET.tostring(..., method='xml') 校验是否可序列化。

发表于：后端开发

近两天内

# append # ASCII # http # if # python # python脚本 # unix # windows # xml # 事件 # 命名空间 # 字符串

复制链接

如何实现首帧即生效的平滑图片轮播（Fade Slideshow）

PHP框架怎么实现用户注册登录_PHP框架认证系统使用指南

c++如何实现一个简单的B树_c++ B-Tree数据结构与数据库索引【源码】

PHP函数调用兼容性问题怎么解决_版本差异处理技巧】

Linux如何终止异常进程_kill命令正确使用方式

XML文件如何分割成小文件 Python脚本按节点拆分XML

用 `xml.etree.ElementTree` 拆分大 XML 文件最稳

按 `record` 或 `item` 节点拆分的实际写法

`iterparse` 遇到命名空间就报错？这样绕过去

中文乱码、换行丢失、缩进错乱怎么办

composer如何在离线环境中使用自定义仓库？

html列怎么表示宽度_html列怎么表示合并【详解】

InfoPath是什么如何用它来设计基于XML的表单

如何在Golang中处理由内存逃逸引起的性能下降(不视为Err但需处理)

怎么处理验证码_PHP识别简单验证码实现登录【操作】

sublime中如何利用CanIUse插件查看CSS兼容性？（前端必备）

如何在Golang中流式打包Tar归档文件 Go语言Archive/Tar高级用法

vscode设计界面时怎么是图标横排对齐

JavaScript 中归并排序的正确实现与常见逻辑错误修复

如何解决 Tkinter 窗口首次启动时图标无法显示的问题

XML文件如何分割成小文件 Python脚本按节点拆分XML

用 xml.etree.ElementTree 拆分大 XML 文件最稳

按 record 或 item 节点拆分的实际写法

iterparse 遇到命名空间就报错？这样绕过去

中文乱码、换行丢失、缩进错乱怎么办

用 `xml.etree.ElementTree` 拆分大 XML 文件最稳

按 `record` 或 `item` 节点拆分的实际写法

`iterparse` 遇到命名空间就报错？这样绕过去