Python 序列化协议的性能与兼容性对比

1次阅读

纯数据场景下msgpack最快,比pickle快1.5–3倍;pickle唯一支持带方法的类实例;protobuf跨语言稳定但需预定义schema;json仅适用于web api和配置文件。

Python 序列化协议的性能与兼容性对比

pythonpicklejsonmsgpackprotobuf 谁更快?

纯数据场景下,msgpack 通常比 pickle 快 1.5–3 倍,序列化小对象时甚至接近 json 的 2 倍;但如果你存的是带方法的类实例,只有 pickle 能直接搞定。protobuf 启动慢(要先编译 .proto)、序列化单个对象不占优,但在跨语言+高频通信场景里,它的体积和解析稳定性碾压其他三个。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • json:只用于 Web API 或配置文件——它不支持 bytes、datetime、NaN,遇到就报 TypeError: Object of type bytes is not JSON serializable
  • pickle:别用 protocol=0ASCII 模式),默认的 protocol=4(Python 3.8+ 是 5)快且紧凑;但永远别反序列化不可信来源的数据,会执行任意代码
  • msgpack:加 use_bin_type=True 才能正确 round-trip bytes,否则自动转成 str;默认不支持 datetime,得手动注册 ext hook
  • protobuf:不是“拿来就能用”的序列化库,必须定义 schema、生成 Python 类,适合长期演进的接口,不适合 ad-hoc 数据临时传

pickle 兼容性差在哪?为什么跨 Python 版本容易炸?

pickle 协议本身不向后兼容:Python 3.8 默认用 protocol=5,而 3.7 只认到 4,直接 load() 就抛 ValueError: unsupported pickle protocol: 5。更隐蔽的是,同一协议下,如果类定义变了(比如删了字段、改了 __init__ 签名),load() 会静默失败或构造出半初始化对象。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 显式指定协议版本:写入时用 pickle.dump(obj, f, protocol=4),确保 3.7+ 都能读
  • 避免直接序列化嵌套太深的自定义类;优先把数据抽成 dictdataclass + asdict() 再 pickle
  • 如果必须跨版本传输,用 cloudpickle 替代原生 pickle——它能捕获更多上下文,但体积更大、启动更慢

JSON 序列化 datetime 或 bytes 为啥总报错?怎么绕过?

json.dumps() 默认只认 strintFloatlistdictboolNone 这七种类型。传 datetime.now() 就是 TypeError: Object of type datetime is not JSON serializable;传 b'hello' 也一样。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • default 参数接管未知类型:json.dumps(obj, default=str) 最省事,但会把 datetime 变成 ISO 字符串、bytes 变成 b'xxx' 的 repr,接收方得自己 parse
  • 更可控的做法是写专用 encoder:class DateTimeEncoder(json.JSONEncoder): def default(self, o): return o.isoformat() if isinstance(o, datetime) else super().default(o)
  • bytes 类型别硬塞进 JSON;真要传二进制,先 base64.b64encode(x).decode(),再放 dict 里当字符串字段

msgpack 比 pickle 小但为啥有时反而更慢?

msgpack 二进制体积通常比 pickle 小 10–20%,尤其对大量数字或短字符串;但它的 Python 实现(msgpack-python)在处理含大量小 list/dict 的嵌套结构时,C 扩展调用开销明显,反而比纯 C 实现的 pickle 慢。另外,如果开了 strict_types=True 或用了 ext hook,性能折损更大。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 测速前先确认用的是 msgpack.packb(..., use_bin_type=True),否则 bytes 会被当成 str 编码,后续解析出错
  • 避免在循环里反复调用 msgpack.packb();批量数据优先用 msgpack.Packer() 实例复用 buffer
  • 如果数据里有大量重复 key(比如日志列表),开 use_bin_type=True + strict_types=True 反而增加 CPU 开销,不如关掉

真正难搞的不是选哪个协议,而是当服务从单机变分布式、从 Python 2 升到 3、从内部 rpc 拓展到外部 API 时,序列化格式的边界突然变得模糊——这时候协议不再是性能数字,而是契约。一个 datetime 字段要不要带 tzinfo,None 算不算合法值,float('inf') 怎么传,这些细节往往拖垮整个迁移节奏。

text=ZqhQzanResources