XML映射到CSV时如何处理嵌套结构

1次阅读

csv无法直接表达xml嵌套结构，因其是二维表格格式，缺乏父子、兄弟或重复节点概念；主流做法是用XPath定位上下文并展开重复节点为独立记录，同时区分属性与文本字段。

XML映射到CSV时如何处理嵌套结构

XML嵌套结构在CSV中天然无法直接表达

CSV 是二维表格格式，没有父子、兄弟或重复节点的概念。XML 中的 AB 这类重复子元素，强行扁平化会导致行数膨胀或字段语义丢失——这不是工具不行，是模型不匹配。

用 XPath 提取路径 + 展开重复节点是主流做法

核心思路：把每个视为一条独立记录，用 XPath 定位其上下文（如所属），再拼接字段。python 的 xml.etree.ElementTree 或 lxml 都支持 .findall() 和 .get()。

import xml.etree.ElementTree as ET import csv  tree = ET.parse("orders.xml") root = tree.getroot()  with open("output.csv", "w", newline="") as f:     writer = csv.DictWriter(f, fieldnames=["order_id", "item_name", "item_price"])     writer.writeheader()          for order in root.findall("order"):         order_id = order.get("id")         for item in order.findall("item"):             row = {                 "order_id": order_id,                 "item_name": item.findtext("name") or "",                 "item_price": item.findtext("price") or ""             }             writer.writerow(row)

避免用 root.iter("item") 直接遍历——会丢失所属 order 上下文
findtext() 比 find().text 更安全，空节点返回 None 而非报错
若存在多层嵌套（如 red），需决定是否展开为 item_specs_color 字段，还是跳过

遇到属性+文本混合时字段命名要加后缀

XML 元素既含属性又含文本（如 29.99）时，CSV 字段必须区分来源，否则语义混淆。常见做法是加 _attr 和 _text 后缀。

生成字段名：price_currency_attr 和 price_text
不要合并成一个 price 字段——你无法判断 29.99 是值还是 currency 值
如果业务上只关心文本值，就忽略属性；但得明确这个决策，不能靠“默认行为”掩盖

深层嵌套（3 层以上）建议先转 jsON 再导出

当 XML 出现

...

这类结构，硬编码 XPath 易出错且难维护。更稳妥的方式是先用 xmltodict 或 lxml.objectify 转成嵌套字典，再递归展平（flatten）或按需提取关键路径。

pip install xmltodict 后，xmltodict.parse(xml_str) 返回标准 Python dict
展平时注意：重复标签（如多个 item）会被转成 list，需用 for item in data['order']['item']: 显式迭代
不要试图写通用“XML→CSV”函数——不同业务的嵌套语义差异太大，字段裁剪和层级截断点必须人工确认

字段命名冲突、重复节点归属、属性与文本混用——这些不是实现细节，是数据契约的一部分。写脚本前，先手画三行样例 XML 和对应 CSV，比调十次代码更能防坑。

发表于：开发工具

近一天内

# csv # js # json # python # red # xml # 工具

复制链接

sublime怎么在查找结果中显示上下文_sublime搜索结果预览上下文内容设置

sublime怎么解决高CPU占用率的问题_sublime优化性能降低CPU占用方案

Composer的ca-bundle是什么？为什么有时需要更新它？

composer怎么搜索包_search命令在命令行快速查找库【操作】

如何使用Golang的encoding/base64包进行Base64编码_GolangBase64编码与解码技巧

XML映射到CSV时如何处理嵌套结构

XML嵌套结构在CSV中天然无法直接表达

用 XPath 提取路径 + 展开重复节点是主流做法

遇到属性+文本混合时字段命名要加后缀

深层嵌套（3 层以上）建议先转 jsON 再导出

Composer如何配置项目自定义脚本_Composer scripts自动化执行【进阶】

HTML按钮间空白区域意外触发链接的成因与解决方案

Linux 服务器被大量 SYN 包淹没但 conntrack 表没满的几种隐藏攻击方式

React 中条件渲染组件时的导航函数调用错误修复指南

C++ 怎么实现线程同步 C++ mutex互斥锁与死锁避免【并发】

如何调用用户输入函数_PHP输入过滤函数调用说明】

PHP7和PHP8框架扩展支持有啥变_版本差异扩展兼容汇总【汇总】

C#文件内容去重 C#如何高效处理大文本文件并去除重复行

XML上传接口的返回格式设计成功的JSON响应结构

如何在虚拟机中快速完成MySQL环境搭建虚拟机数据库环境搭建与网络互通配置