c++如何高效读写大型文件_c++内存映射文件【进阶】

1次阅读

mmap 比 fread/fwrite 更快因其绕过内核缓冲区多次拷贝，实现文件到虚拟内存的直接映射，但存在缺页中断等隐性开销；适用于大文件随机访问、多进程共享只读数据或固定区域频繁修改。

因为 mmap 绕过了内核缓冲区的多次拷贝：普通读写要经历「磁盘 → 内核页缓存 → 用户缓冲区」，而 mmap 让文件内容直接映射进进程虚拟地址空间，访问就像读写内存一样。但注意，这不等于“无代价”——缺页中断、页表管理、TLB 压力都是隐性开销。

适用场景：mmap 真正高效的地方是随机访问大文件（比如数据库索引、日志查找）、需要多进程共享同一份只读数据、或频繁修改固定区域（如位图、内存池头）。顺序流式读写反而可能因预读策略失效而变慢。

Windows 没有 mmap，但 CreateFileMapping + MapViewOfFile 功能完全对应。关键差异在于句柄管理和保护标志：

CreateFile 必须带 GENERIC_READ | GENERIC_WRITE，即使只读也要申请写权限（否则 CreateFileMapping 失败）
MapViewOfFile 的 dwDesiredAccess 才真正控制访问权限：FILE_MAP_READ / FILE_MAP_WRITE
映射大小不能超过文件实际长度；若需扩展，先用 SetFilePointerEx + SetEndOfFile 扩容，再映射

错误示例：ERROR_MAPPED_FILE 常因文件句柄未设 FILE_FLAG_RANDOM_ACCESS 导致，尤其在 SSD 上影响预读性能。

32 位程序天然受限于 4GB 虚拟地址空间，即使文件只有 2.5GB，也可能因 DLL 占位导致无法分配连续映射区。64 位下虽无此限，但仍有陷阱：

linux：mmap 的 Length 参数是 size_t，但某些老内核对超大映射会返回 ENOMEM，建议分块映射（如每次 512MB）
Windows：MapViewOfFile 的 dwNumberOfBytesToMap 是 DWORD（最大 4GB），超限时必须用 MapViewOfFileEx 并手动指定基址
跨平台代码别用 sizeof(int) 判断文件大小，统一用 off_t（Linux）或 LARGE_INTEGER（Windows）

一个易忽略点：stat 或 GetFileSizeEx 返回的大小可能被其他进程截断，映射前最好加 flock 或 LockFileEx。

不能。一旦调用 munmap（或 Windows 的 UnmapViewOfFile），对应虚拟地址区间立即失效。后续访问会触发 SEGV_MAPERR（Linux）或 ACCESS_VIOLATION（Windows），不是“数据丢失”，而是段错误。

最常被忽视的是信号处理：若在 SIGSEGV 信号 handler 中尝试访问已 munmap 的地址，会导致递归崩溃——handler 本身可能就运行在该映射区内。

发表于：php框架

近一天内

复制链接

c++如何高效读写大型文件_c++内存映射文件【进阶】

JavaScript 中模板字符串插值会强制转换为字符串类型的原因详解