c++怎么实现内存映射文件mmap_c++ 大文件快速读取与写入优化【实战】

17次阅读

windows无mmap,需用CreateFileMapping+MapViewOfFile三步实现;linux/macos用mmap需区分MAP_SHAred(同步文件)与MAP_PRIVATE(写时复制);跨平台应宏隔离而非运行时分支。

c++怎么实现内存映射文件mmap_c++ 大文件快速读取与写入优化【实战】

windows 下没有 mmap,得用 CreateFileMapping + MapViewOfFile

Linux/macOS 的 mmap 在 Windows 上不存在对应系统调用。c++ 标准库也不提供跨平台内存映射接口,必须走 Win32 API。直接调 mmap 会编译失败或链接报错:undefined reference to 'mmap'

关键步骤是三步:打开文件句柄 → 创建映射对象 → 映射到进程地址空间。注意 CREATE_FILE_MAPPING_* 标志要和后续 MapViewOfFile 的访问权限匹配,否则映射失败返回 NULL

  • hFile 必须用 GENERIC_READ | GENERIC_WRITE 打开,且不能是 FILE_SHARE_DELETE 独占模式(否则其他进程无法访问)
  • 映射大小不能超过文件实际长度(除非你打算扩展文件,此时需先用 SetFilePointerEx + SetEndOfFile
  • MapViewOfFile 返回的是 LPvoid,强制转成目标类型指针前,务必检查是否为 NULL

Linux/macOS 下用 mmap 要注意 MAP_SHAREDMAP_PRIVATE 区别

写入大文件时,选错标志会导致数据不落盘或写入无效:

  • MAP_SHARED:修改会同步到文件,多个进程映射同一文件可共享变更,适合读写场景
  • MAP_PRIVATE:写入触发写时复制(COW),原文件不变,仅当前进程可见,适合只读+临时处理

常见错误是用 MAP_PRIVATE 做写入优化,结果调 msync 也没用——它根本不写回磁盘。另外,mmap 失败时返回 MAP_FaiLED(不是 NULL),必须用 if (addr == MAP_FAILED) 判断。

立即学习C++免费学习笔记(深入)”;

int fd = open("data.bin", O_RDWR); struct stat sb; fstat(fd, &sb); void* addr = mmap(nullptr, sb.st_size, PROT_READ | PROT_WRITE,                   MAP_SHARED, fd, 0); if (addr == MAP_FAILED) {     perror("mmap");     close(fd);     return -1; }

跨平台封装建议:用宏隔离系统差异,避免运行时分支

不要在运行时判断 OS 类型再调不同 API,这会破坏内联、增加分支预测失败概率。用预编译宏分文件或分块更可靠:

  • Windows:定义 MMAP_HANDLEHANDLE,封装 open_mapping() 内部调 CreateFileMapping
  • POSIX:定义 MMAP_HANDLEint(即 fd),open_mapping() 直接返回 fd
  • 映射统一返回 void*,释放时按平台调 UnmapViewOfFilemunmap

特别注意:Windows 映射对象(HANDLE)和视图(LPVOID)是两个独立资源,必须分别关闭;而 POSIX 的 munmap 一次释放全部。

大文件随机写入比顺序写入更容易崩,因为缺页异常频率高

映射几百 MB 文件后,如果只写开头和结尾两处,中间区域未触达,page fault 会在首次访问时才分配物理页。但若同时线程随机跳着写,缺页异常频繁,性能反而不如 write() + lseek()

  • 优化手段:用 madvise(addr, len, MADV_WILLNEED)(Linux)或 VirtualAlloc 预分配(Windows)提示内核提前加载热区
  • 更稳的方案:把大文件逻辑切分成固定大小块(如 64MB),按需映射/解映射,避免长期占用虚拟地址空间
  • 调试技巧:Linux 下用 /proc/[pid]/maps 查看映射是否成功、是否被标记为 rw

真正的大文件(>10GB)还要考虑 32 位地址空间不足问题,64 位编译必不可少;另外,SSD 寿命敏感场景慎用频繁 msync,它会强制刷写,打断写合并。

text=ZqhQzanResources