Python CSV 文件读写性能优化

1次阅读

Python CSV 文件读写性能优化

python 处理 csv 文件时，性能瓶颈常出现在 逐行解析、类型转换、内存占用和 I/O 阻塞 上。用对方法，读写速度可提升数倍甚至一个数量级，关键不在“多快”，而在“少做无用功”。

用 pandas 读 CSV：跳过慢操作

pandas 的 read_csv() 默认行为很“安全”但很慢：自动推断列类型、处理缺失值、解析日期、支持复杂分隔符等。实际项目中，多数 CSV 结构固定、格式干净，可针对性关闭冗余功能：

指定 dtype（如 {'id': 'int32', 'name': 'String'}），避免类型回溯扫描
用 usecols 只读需要的列，减少内存分配和解析开销
明确传入 sep 和 encoding，不依赖自动探测
若无缺失值，设 na_filter=False；若无引号/转义，设 quoting=csv.QUOTE_NONE

小文件或流式处理：改用 csv 模块 + 类型预处理

当数据量不大（csv 模块更轻量、可控性更强：

用 csv.DictReader 或 csv.reader，配合 open(..., newline='') 避免换行符歧义
在循环内做字段转换（如 int(row[0])），比 pandas 后续 .astype() 更早释放中间对象
写入时用 writer.writerow() 直接输出已格式化数据，避免字符串拼接或 f-string 构造

大文件分块 + 并行写入（谨慎使用）

超大 CSV（GB 级）不宜一次性加载。pandas 支持 chunksize 分块读取，但注意：

立即学习“Python免费学习笔记（深入）”；

每块仍需统一列类型和索引逻辑，建议封装为函数复用
写入多个文件再合并，比单文件追加更快（避免磁盘随机写）
多进程并行写入同一文件有风险，推荐用 multiprocessing.Pool 处理分块后，由主进程顺序写入
更稳的选择是先用 to_parquet 存中间格式，最后导出 CSV —— Parquet 读写快得多，适合中间计算

绕过 CSV：该换格式就换

CSV 是通用交换格式，不是高性能存储格式。如果控制读写两端：

内部流程优先用 pickle（同 Python 版本）或 feather/parquet（跨语言、列存、压缩好）
导出给外部系统时，再用 to_csv() 一次性生成，而非边算边写 CSV
纯数值矩阵可用 numpy.savetxt / loadtxt，比 csv 模块快 2–5 倍

发表于：后端开发

近两天内

# csv # pandas # python # String # 性能优化 # 类型转换

复制链接

Python pytest 常见问题解析

Go语言中goto语句的实用场景与规范解析

C++的Name Mangling是什么机制？C++函数重载底层实现原理【编译链接】

Golang并发编程之Daisy Chain_菊花链模式极限测试

HTML5 响应式汉堡菜单的平滑动画实现教程

Golang中的错误包裹与GRPC状态码转换 Go语言微服务错误透传

text=ZqhQzanResources