C#读取大文本文件 C#如何高效读取GB级别的文件

1次阅读

应使用 streamreader 按行流式读取 gb 级文件，避免 file.readalllines() 导致 oom；需指定编码、复用实例、预建行偏移索引支持随机访问；对高性能场景可选 span 手动解析，但需谨慎处理边界与编码。

用 `StreamReader` 按行流式读取，别加载进内存

GB 级文件直接 File.ReadAllLines() 或 File.ReadAllText() 会瞬间 OOM——字符串对象在 .NET 中是 UTF-16 编码，1GB 的 ASCII 文件加载后实际占用约 2GB 内存，还附带 GC 压力。StreamReader 是唯一靠谱的起点，它内部使用缓冲区（默认 1024 字节），逐块解码、按需吐出字符串，内存占用稳定在几 KB 到几十 KB。

实操建议：

始终指定编码，如 new StreamReader(path, Encoding.UTF8)，避免 bom 判断开销或乱码
用 ReadLine() 而非 ReadToEnd()；若需跳过前 N 行，用循环 + DiscardBufferedData() 无意义，直接 for 丢弃即可
不要在循环里反复新建 StreamReader；一个实例复用到底

需要随机访问某一行？别硬扛，先建索引

StreamReader 不支持 Seek 到第 N 行——因为行长度不固定，无法 O(1) 定位。想“读第 100 万行”，只能从头扫，耗时不可控。真有此需求，必须预处理建行偏移索引。

做法很简单：第一遍扫描只记每行起始 Stream.position，写入一个轻量二进制或 CSV 文件（如每行存一个 long）；后续读取时用 FileStream.Seek() 跳转，再用 StreamReader 读该行：

using var fs = new FileStream("file.txt", FileMode.Open, FileAccess.Read, FileShare.Read, 4096, FileOptions.SequentialScan); fs.Seek(offsets[lineNumber], SeekOrigin.Begin); using var sr = new StreamReader(fs, Encoding.UTF8); string line = sr.ReadLine(); // 就是你要的那行

注意：FileOptions.SequentialScan 提示 OS 使用顺序读优化，对大文件有效；索引文件本身只有几 MB，远小于原始文件。

比逐行更快？试试 `Span<byte></byte>` + 手动解析

如果文件格式简单（如纯 ASCII 日志、CSV 无引号嵌套），且你愿意放弃部分可读性换性能，Span<byte></byte> 直接操作字节比 StreamReader 快 2–5 倍。核心是绕过字符串解码、避免 GC 分配。

关键点：

用 FileStream.ReadAsync(Memory<byte>)</byte> 配合栈上 Span<byte></byte> 处理缓冲区
用 IndexOf((byte)'n') 找行尾，Utf8Decoder.Decode() 按需转字符串（仅对目标行）
务必处理跨缓冲区的换行符（即 n 恰好在 buffer 边界），需保留末尾不完整行头
不推荐新手直接上手——调试困难，编码逻辑（如 UTF-8 多字节）易出错

别忽略文件系统和硬件层的影响

代码再优，遇到机械硬盘、网络共享盘（SMB/NFS）、或 NTFS 压缩属性，吞吐量可能跌到 10MB/s 以下。这些不是 C# 能解决的：

确认文件是否启用了 NTFS 压缩：fsutil behavior query disablelastaccess 和 compact /q file.txt 查看；压缩文件会强制解压到内存再读，彻底废掉流式优势
SSD 上开启 FileOptions.RandomAccess 可能反而拖慢；顺序大文件一律用 SequentialScan
远程文件优先考虑下载本地再处理；SMB 共享下 StreamReader 的缓冲区大小建议调大到 64KB 或 128KB 减少往返

真正卡住的时候，先用 Process Monitor 看是不是在等磁盘 IO，而不是急着改 C# 代码。

发表于：web前端

近两天内

复制链接

Ngrx dispatch 序列调用：理解其执行机制与循环规避策略

html如何调整大小_HTML元素尺寸（width/height）调整方法

如何正确将 ES6 类转换为传统函数构造器并保持原型链继承

css第三方样式覆盖项目样式怎么处理_调整link引入顺序保证主样式优先

PHP怎么判断变量是否为整型 PHP如何使用is_int函数【指南】

C#读取大文本文件 C#如何高效读取GB级别的文件

用 `StreamReader` 按行流式读取，别加载进内存

需要随机访问某一行？别硬扛，先建索引

比逐行更快？试试 `Span<byte></byte>` + 手动解析

别忽略文件系统和硬件层的影响

Linux 源列表管理与优化策略

Go 语言中隐蔽的竞态条件：无同步 goroutine 间变量读写的风险解析

如何计算账户在不同杠杆下的“生存天数”？

Kraken交易所官方首页入口_Kraken官方APP下载链接入口

php扩展怎样开启修改_php扩展开启修改步骤【启用】

如何在Golang中处理模板渲染错误 Go语言html/template异常

mysql触发器能否调用外部存储过程_mysql调用方法解析

如何在Golang中监控Goroutine的数量 Go语言runtime.NumGoroutine

mysql如何使用ABS获取绝对值_mysql数学运算应用

C# 文件内容的数据质量验证 C#如何编写规则来校验文件内容是否符合规范

C#读取大文本文件 C#如何高效读取GB级别的文件

用 StreamReader 按行流式读取，别加载进内存

需要随机访问某一行？别硬扛，先建索引

比逐行更快？试试 Span<byte></byte> + 手动解析

别忽略文件系统和硬件层的影响

用 `StreamReader` 按行流式读取，别加载进内存

比逐行更快？试试 `Span<byte></byte>` + 手动解析