go处理大文件需分块读取+限并发写入:用os.Open配合io.ReadAt或bufio.Reader流式读,块大小4–8MB;写入用worker pool控并发(4–16),同一文件加锁或channel串行,多文件则各goroutine独占文件句柄。

用 Go 处理大文件时,直接 os.ReadFile 或一次性加载到内存会触发 OOM;合理分块读取 + 并发写入是核心解法。关键不在“并发越多越好”,而在控制内存占用、避免 I/O 竞争、保证顺序或一致性(视场景而定)。
分块读取:按固定大小切片,流式处理
不把整个文件读进内存,而是用 os.Open 打开文件,配合 io.ReadAt 或 bufio.Reader 分段读取。推荐使用 io.CopyN 或手动控制 Read 循环:
- 块大小建议设为 1MB–8MB(如
buf := make([]byte, 4*1024*1024)),太小增加系统调用开销,太大浪费内存 - 用
file.Seek(offset, io.SeekStart)可跳转读取任意偏移块,适合并行分片处理 - 注意最后一块可能不足设定大小,需检查
n, err := reader.Read(buf)的返回值,err == io.EOF是正常结束信号
并发写入:限制 goroutine 数量,复用 writer
写入不能无节制启 goroutine——磁盘是共享资源,并发过高反而降低吞吐。正确做法是用 worker pool 控制并发度(如 4–16 个),每个 worker 负责一个输出文件或一个数据段:
- 若写入同一文件,必须加锁(
sync.Mutex)或通过 channel 串行写入,否则内容错乱 - 若写入多个独立文件(如按哈希分桶),可让每个 goroutine 拥有专属
*os.File,避免竞争 - 用
bufio.NewWriterSize(file, 1 包装 writer,减少系统调用次数,提升写入效率
组合策略:读写分离 + channel 中转
典型高效结构是:1 个 goroutine 负责分块读取 → 发送到 chan []byte → N 个 worker 从 channel 消费 → 处理后写入目标位置。例如:
立即学习“go语言免费学习笔记(深入)”;
- 读协程循环:
for offset - worker 协程:
for data := range ch { process(data); writeToFile(data) } - channel 缓冲区设为
make(chan []byte, 16),避免读协程阻塞,也防止内存堆积
额外优化点
实际落地时还有几个容易忽略但影响明显的细节:
- 用
file.Sync()替代频繁file.Write后立刻fsync,改在批量写完后调用一次 - 对只读大文件,打开时加
os.O_RDONLY | os.O_DIRECT(Linux)可绕过页缓存,适合顺序读场景(注意对齐要求) - 处理日志或 JSON 行文件时,优先用
scanner := bufio.NewScanner(file)按行读取,比固定块更语义清晰且不易截断记录