应采用 worker pool 模式控制并发,通过带缓冲 channel 分发任务,启动固定数量 worker 从队列取任务执行,避免无节制创建 goroutine 导致系统过载。

用 Go 实现并发文件处理,核心是合理控制 goroutine 数量、避免资源争抢、保证错误可追踪,而不是无节制起 goroutine。
用带缓冲的 channel 控制并发数
直接为每个文件启一个 goroutine 容易压垮系统(比如处理上万小文件时)。更稳妥的方式是用 worker pool 模式:固定数量的工作协程从任务队列中取任务执行。
示例关键结构:
- 定义任务类型,如
type FileTask Struct { Path String; Op string } - 创建任务 channel:
tasks := make(chan FileTask, 100) - 启动 N 个 worker:
for i := 0; i - 主 goroutine 把所有待处理文件发到
tasks,再关闭 channel
文件操作需注意线程安全与路径隔离
多个 goroutine 同时读写同一文件会出问题;即使读操作,若涉及 os.Stat + os.Open 的组合,也存在竞态风险(文件可能被外部删除或重命名)。
立即学习“go语言免费学习笔记(深入)”;
建议做法:
- 每个 task 独立处理一个文件路径,不共享文件句柄
- 读写不同目录下的文件,避免输出路径冲突(例如加随机后缀或按哈希分目录)
- 对关键操作加简单重试(如
ioutil.ReadFile失败时重试 1–2 次),但别掩盖权限/不存在等确定性错误
结果收集与错误汇总要清晰可查
并发中不能只靠 log.print 打印,容易丢失上下文。推荐统一收口返回结构:
type TaskResult struct { Path string; Success bool; Err Error; Size int64 }
用另一个 channel(如 results := make(chan TaskResult, 100))接收每个任务结果,主 goroutine 循环接收直到全部完成,最后统一分组统计成功数、失败列表、耗时等。
也可把失败项写入单独日志文件,方便后续重试。
考虑内存与 I/O 的实际瓶颈
CPU 密集型操作(如压缩、加解密)适合多 goroutine;纯磁盘读写反而可能因随机 IO 变慢。实测发现:
- SSD 上并发 4–8 个读任务通常吞吐最优
- HDD 建议限制在 2–4 个,避免寻道风暴
- 若文件平均大于 10MB,优先考虑流式处理(
io.copy+bufio.Reader),别一次性加载进内存
基本上就这些。Go 的并发模型简洁,但文件批处理的关键不在“能不能并发”,而在“并发多少才合适”和“怎么不翻车”。