http响应头解析核心难点是换行符混用(CRLF/LF)导致切分不可靠,须先定位空行分隔头/体,再归一化换行符并逐行解析,状态行单独处理,字段名需忽略大小写比较,值需清理空白和’r’。

HTTP响应头解析的核心难点在换行与字段分隔
直接用 std::String::find 扫描 "rn" 或 "n" 不可靠——真实响应可能混用 CRLF("rn")和 LF("n"),尤其在测试 mock 服务或某些嵌入式 HTTP 实现中。必须先定位响应体起始位置,即首个空行(连续的 "rnrn" 或 "nn"),再对前面部分逐行切分。
用 std::getline 拆解响应头时要指定分隔符
默认 std::getline 以 'n' 为界,但若原始数据含 "rn",会导致首行末尾残留 'r',后续 std::string::find(":") 失败。安全做法是:先统一将 "rn" 替换为 "n",再用 std::getline(..., 'n') 拆行;或手动查找 "n" 并截取子串,显式去除两端空白与 'r'。
- 状态行必须单独处理:第一行格式为
"HTTP/1.1 200 OK",用空格分割后取第二个字段即状态码 - 字段名不区分大小写,但建议转小写后再比对(如
"content-Length"而非"Content-Length") - 字段值可能跨行(带续行空格),实际生产环境极少出现,可暂不支持;若需兼容,需检查下一行是否以
' '或't'开头
提取 Content-Length 和 Connection 的典型代码片段
以下示例假设已将响应头部分(不含 body)存入 std::string headers,且已完成 CRLF 归一化:
size_t pos = 0; std::string status_line; if ((pos = headers.find('n')) != std::string::npos) { status_line = headers.substr(0, pos); // 解析状态码:跳过 "HTTP/1.x " 后取数字 size_t code_start = status_line.find(' '); if (code_start != std::string::npos) { code_start++; size_t code_end = status_line.find(' ', code_start); std::string code_str = status_line.substr(code_start, code_end - code_start); int status_code = std::stoi(code_str); // 可加 try/catch } } // 遍历其余字段 std::istringstream iss(headers.substr(pos + 1)); std::string line; while (std::getline(iss, line, 'n')) { if (line.empty()) continue; size_t colon = line.find(':'); if (colon == std::string::npos) continue; std::string key = line.substr(0, colon); std::string value = line.substr(colon + 1); // 去除 key/value 首尾空格和 'r' key.erase(0, key.find_first_not_of(" tr")); key.erase(key.find_last_not_of(" tr") + 1); value.erase(0, value.find_first_not_of(" tr")); value.erase(value.find_last_not_of(" tr") + 1);
if (_stricmp(key.c_str(), "content-length") == 0) { content_length = std::stoll(value); } else if (_stricmp(key.c_str(), "connection") == 0) { connection_type = value; }
}
立即学习“C++免费学习笔记(深入)”;
windows 下注意 _stricmp 与 linux 的 strcasecmp 兼容性
跨平台项目中,字段名比较不能直接用 ==。MSVC 提供 _stricmp,GCC/Clang 用 strcasecmp,二者行为一致但符号不同。更稳妥的做法是自己实现忽略大小写的比较函数,或用 std::equal 配合 std::tolower:
- 避免依赖 CRT 扩展函数,减少编译差异
-
std::stoll在非法字符串时抛std::invalid_argument,务必捕获 - 某些服务器返回
Transfer-Encoding: chunked时,Content-Length不存在,此时不能假定字段一定存在
真正难的不是切分,而是应对不规范响应——比如缺失状态行、字段名含空格、值内含未转义冒号。生产级解析器往往退回到状态机或正则,但多数内部工具只需处理标准服务,按上述流程已足够稳定。