Python大文件处理策略_内存优化说明【指导】

16次阅读

处理大文件应避免全量加载，采用流式读取、分块处理、内存映射（mmap）和生成器等策略。例如逐行迭代、pandas chunksize、np.memmap及yield替代列表累积，配合资源管理与内存监控，可稳定处理百GB级文件。

处理大文件时，python容易因一次性加载全部数据导致内存溢出。核心思路是避免全量加载，改用流式读取、分块处理、延迟计算和外部存储等策略，让内存占用可控且稳定。

分块读取文本文件（readline + 迭代器）

对超大文本文件（如日志、csv），不用 readlines() 或 read()，而是逐行或按固定行数分批读取。既保持逻辑清晰，又控制内存峰值。

用 for line in f: 原生迭代，底层自动缓冲，内存友好
需批量处理时，可封装成生成器函数，每次 yield 1000 行：

def read_in_chunks(file_path, chunk_size=1000):
  with open(file_path, encoding=’utf-8′) as f:
    chunk = []
    for line in f:
      chunk.append(line.strip())
      if len(chunk) == chunk_size:
        yield chunk
        chunk = []
    if chunk:
      yield chunk

使用 pandas 的 chunksize 参数处理 CSV

pandas 的 read_csv() 支持 chunksize，返回 TextFileReader 对象，可迭代读取数据块，适合清洗、统计、写入等场景。

不加 chunksize：整表进内存 → 易 OOM
设 chunksize=5000：每次只加载 5000 行 DataFrame，处理完即释放
配合 pd.concat() 拼接结果时注意——仅在必要时才 concat，否则用 append 或直接写磁盘

内存映射（mmap）读取二进制/固定格式大文件

当文件内容为结构化二进制（如 float32 数组、自定义 record）、且无需全部解码时，mmap 可以把文件“映射”为内存视图，按需访问任意位置，不实际加载数据。

立即学习“Python免费学习笔记（深入）”；

适用于：科学计算中的大型矩阵文件、传感器原始数据、数据库快照等
示例：np.memmap('data.bin', dtype='float32', mode='r', shape=(1000000, 100))
注意：mmap 不减少磁盘 I/O，但极大降低 Python 对象创建开销和内存驻留量

用生成器+yield 替代列表累积

很多逻辑默认用 list 存中间结果（如解析后过滤、转换），但大文件下这会迅速吃光内存。改成生成器函数，边产边用，不囤积。

错误写法：results = [process(line) for line in f] → 全部存完才开始下一步

推荐写法：

def process_lines(f):
  for line in f:
    yield transform(line)

再用 for item in process_lines(f): do_something(item)

配合内置函数如 itertools.islice、Filter、map，进一步减少中间容器

不复杂但容易忽略：及时关闭文件、用 with 管理资源、避免全局缓存大对象、监控内存（如 psutil.Process().memory_info().rss）。策略选对，百 GB 文件也能稳稳跑完。

发表于：后端开发

2026-01-01

复制链接

c++的CRON表达式解析库如何选择与使用？ (任务调度实现)

怎么查找php源码中语言换的url_找php源码语言换url技巧

如何在 Pandas 中安全地用字典映射更新列值而不丢失未匹配项

php增删改查在php8里有什么变化_新特性对curd的影响【指南】

php怎么下载安装搭配nginx服务器_fastcgi设置方法【指南】

Python大文件处理策略_内存优化说明【指导】

分块读取文本文件（readline + 迭代器）

使用 pandas 的 chunksize 参数处理 CSV

内存映射（mmap）读取二进制/固定格式大文件

用生成器+yield 替代列表累积

如何在Golang中定义常量_Golang常量使用方法解析

怎么看懂虚拟货币的市值和流通量_市值排名的意义

html5play函数调用超时咋解决_html5play函数超时处理法【步骤】

Python deque 在高性能场景中的优势

css 想实现表单输入框聚焦边框颜色变化怎么办_focus 伪类与 border-color

:first-of-type和:first-child区别_精准定位元素的方案

PHP 表单提交前服务端验证与提交拦截完整教程

C++中的模板特化（Template Specialization）是什么？（如何使用）

Go 语言中实现 Fan-In 模式的三种方法性能对比与原理分析

mysql事务有哪些特性_mysqlACID特性说明