PythonJSON与XML数据操作教程_解析序列化与数据转换

20次阅读

python处理jsON用json模块序列化/反序列化,支持基础类型;xml用xml.etree.ElementTree解析树状结构;两者转换需手动映射,无通用方案。

PythonJSON与XML数据操作教程_解析序列化与数据转换

Python 中处理 JSON 和 XML 是日常开发的高频需求,核心在于理解“序列化”(对象字符串)与“反序列化”(字符串→对象)的过程,并掌握不同格式的数据结构映射逻辑。JSON 轻量、易读、原生支持 Python 字典/列表;XML 更严格、可扩展性强,但需额外解析库。两者转换不是自动互通的,需人工定义映射规则。

JSON:用 json 模块完成基础序列化

Python 标准库 json 模块直接支持字典、列表、字符串、数字、布尔值和 None 的序列化,不支持自定义类或日期对象(需额外处理)。

  • 转为字符串(序列化):用 json.dumps(),可加 indent=2 美化输出,ensure_ascii=False 保留中文
  • 写入文件:用 json.dump(),直接写入打开的文件对象
  • 从字符串加载(反序列化):用 json.loads();从文件读取用 json.load()
  • 处理日期等特殊类型继承 json.JSONEncoder,重写 default() 方法,例如把 datetime 转为 ISO 格式字符串

XML:用 xml.etree.ElementTree 解析结构化数据

xml.etree.ElementTree(简称 ET)是 Python 内置轻量级 XML 处理模块,适合常规读写。它将 XML 映射为树状 Element 对象,节点有标签(tag)、属性(attrib)和文本(text)。

  • 解析字符串:用 ET.fromstring(xml_str) 得到根元素;解析文件用 ET.parse("file.xml").getroot()
  • 遍历子元素:用 for child in root:root.findall("item") 查找指定标签
  • 读取属性和文本elem.attrib["id"] 获取属性,elem.text.strip() 获取并清理文本内容
  • 构建 XML:用 ET.Element("root") 创建节点,ET.SubElement(parent, "child") 添加子节点,最后用 ET.tostring()tree.write() 输出

JSON ↔ XML 转换:没有银弹,需按需设计

JSON 和 XML 结构差异大(如 XML 有属性、命名空间、顺序敏感、混合内容),无法通用全自动转换。实用做法是明确业务字段后,手写映射逻辑。

立即学习Python免费学习笔记(深入)”;

  • 简单场景(如配置类数据):把 JSON 字典键作为 XML 标签名,值作为文本内容;字典中的嵌套字典转为子元素
  • 含属性的数据:约定某类字段名以 @ 开头(如 {"@id": "123", "name": "Alice"}),生成时将 @id 写入 XML 属性,其余为子元素
  • 避免过度抽象:不建议引入复杂中间模型,优先用字典 + ET 构建,清晰可控
  • 注意编码与转义:XML 中的 & 等需自动转义,ET 默认处理;JSON 中的双引号、反斜杠需正确转义

常见问题与避坑提示

实际操作中容易卡在细节,提前留意可省去大量调试时间。

  • JSON 加载失败?先检查字符串是否为合法 UTF-8,是否有 bom 头或不可见控制字符;用 json.loads(s.strip()) 去首尾空格
  • XML 解析报错“mismatched tag”?大概率是标签未闭合、大小写不一致(XML 区分大小写),或编码声明与实际不符(如声明 UTF-8 但文件是 GBK)
  • 中文乱码?确保文件以 UTF-8 保存,读取时显式指定 encoding="utf-8"(尤其 open()ET.parse()
  • 性能敏感场景?避免频繁解析大 XML——考虑 iterparse() 流式解析;JSON 大文件可用 ijson 库实现增量解析
text=ZqhQzanResources