Python Excel 大文件读写的 openpyxl 优化

1次阅读

openpyxl读大excel卡死因默认全量加载内存，应启用read_only=true流式解析并避免max_row等全表扫描操作；写入慢因逐行append开销大，需批量写入或write_only=true模式。

因为 openpyxl 默认加载全部单元格到内存，哪怕你只读一列，它也会解析整个 .xlsx 文件的 xml 结构。10MB 的文件可能吃掉 500MB 内存，100MB 文件直接触发 MemoryError 或长时间无响应。

常见错误现象：openpyxl.load_workbook() 卡住几十秒、进程内存飙升、报错 xml.etree.ElementTree.ParseError: out of memory。

openpyxl 本身不支持“按列名跳读”，但你可以结合 read_only=True + 列索引过滤，避开加载无关字段。

使用场景：日志表有 50 列，你只要 "user_id" 和 "created_at"，其他列全是干扰项。

先用 next(ws.iter_rows(min_row=1, max_row=1)) 读首行，拿到列名和对应索引（比如 "user_id" 在第 2 列 → index=1）
后续遍历数据行时，只取你需要的索引位置，例如 row[1].value 和 row[4].value
别用 row["user_id"].value 这种写法——read_only 模式下 row 是 tuple，不支持键访问

逐行 ws.append() 看似自然，但每调用一次都会触发样式、行列元数据的内部重建，10 万行可能耗时几分钟。

性能影响：append 模式下写入速度随行数增长呈次线性下降，而批量写入可稳定在 1–3 万行/秒（取决于硬件）。

这个模式本质是“只写流”，牺牲了灵活性换性能和内存控制。一旦启用，很多你以为理所当然的操作会报错或失效。

容易踩的坑：开了 write_only=True 还想设置单元格字体、边框、合并单元格，或者想回头修改已写入的行。

复杂点在于：没有银弹。如果你既要高速写入，又要精细样式控制，就得拆成两步——先用 write_only=True 快速生成数据表，再用普通模式打开、加样式、另存。这个切换过程本身就有开销，得权衡。

发表于：php框架

近一天内

复制链接

Prisma 中高效创建一对多关联记录的完整实践指南

如何在每次搜索 GIF 时清空之前的结果