最轻量csv解析方案是std::getline配合std::Stringstream逐行按逗号拆分,适用于无引号、换行、嵌入逗号的干净CSV;需手动去空格、处理rn,并在字段含逗号或需RFC 4180兼容时升级方案。

直接用 std::getline 配合 std::stringstream 拆分字段,是最轻量、最可控、也最容易调试的方案;别一上来就找第三方 CSV 库,除非你明确需要处理带换行/引号/转义的 RFC 4180 兼容格式。
用 std::getline + std::stringstream 逐行按逗号切分
这是 c++ 标准库能直接搞定的底线方案,适用于字段不含逗号、换行、双引号的“干净 CSV”(比如导出的数值表、日志摘要)。
关键点在于:先用 std::getline 读整行,再用 std::stringstream 和 std::getline(..., ',') 拆字段——不能直接用 operator>>,它会跳过空格和制表符,还会把连续逗号当成一个分隔符。
- 每行必须以
'n'结尾,windows 的'rn'要提前用str.erase(std::remove(str.begin(), str.end(), 'r'), str.end())清掉 - 字段首尾空格不会自动 trim,需手动调用
std::string::find_first_not_of和find_last_not_of - 如果某字段本身含逗号(比如地址字段
"Beijing, Chaoyang District"),这个方法会错误切分——此时必须升级解析逻辑或换库
std::ifstream file("data.csv"); std::string line; while (std::getline(file, line)) { std::stringstream ss(line); std::string field; std::vector row; while (std::getline(ss, field, ',')) { // 去首尾空格 auto start = field.find_first_not_of(" t"); auto end = field.find_last_not_of(" t"); if (start != std::string::npos) field = field.substr(start, end - start + 1); row.push_back(field); } // 处理 row... }
遇到带双引号的字段(RFC 4180)怎么办
标准 CSV 允许字段用双引号包裹,里面可含逗号、换行,甚至两个双引号表示一个字面双引号。C++ 标准库不提供现成解析器,硬写状态机容易漏边界 case。
立即学习“C++免费学习笔记(深入)”;
这时候推荐两个务实选择:
- 用
csv-parser(header-only,GitHub 地址):只依赖和,支持引号、换行、转义,API 简洁 - 自己写简易引号感知拆分:检测字段是否以
"开头 → 找到匹配的结束"→ 中间所有""替换为单个"→ 剩余部分再按逗号切。但不处理跨行字段,慎用于不可信输入
注意:boost::spirit 或 rapidcsv 虽然功能强,但引入构建复杂度和二进制体积,小项目没必要。
性能敏感场景:避免 std::string 频繁构造
当 CSV 行数超 10 万、字段超百列时,每字段都新建 std::string 会触发大量内存分配。可改用 std::string_view(C++17 起)做零拷贝视图:
- 整行读入缓冲区(如
std::vector),用string_view指向各字段起止位置 - 仅在真正需要拥有字符串内容时(如存入 map / 写入 DB),才调用
std::string{sv} - 必须确保原始缓冲区生命周期长于所有
string_view实例,否则悬垂
std::vector buf(64 * 1024); // 预分配大缓冲 std::ifstream file("big.csv", std::ios::binary); while (file.read(buf.data(), buf.size() - 1)) { size_t n = file.gcount(); buf[n] = ' '; std::string_view line(buf.data(), n); // 手动扫描逗号 + 引号逻辑,返回 std::vector }
真正麻烦的永远不是“怎么读”,而是“CSV 到底长什么样”——excel 导出的 CSV 可能用分号,linux 工具生成的可能没引号,用户上传的文件可能混着 UTF-8 bom 和 GBK 编码。解析前先用 file -i data.csv 或 hexdump -C data.csv | head 看真实字节,比猜编码和分隔符靠谱得多。