C++如何解析带有中文字符的JSON_C++使用nlohmann处理编码方案【避坑】

3次阅读

nlohmann::json默认解析中文乱码是因为它只接受UTF-8编码,若输入为GBK等非UTF-8编码会因非法UTF-8字节抛出parse_Error异常;必须在调用json::parse()前将源数据显式转为UTF-8。

C++如何解析带有中文字符的JSON_C++使用nlohmann处理编码方案【避坑】

为什么nlohmann::json默认解析中文会乱码

nlohmann::json本身不处理字符编码转换,它只负责JSON语法解析和序列化。当输入字符串是UTF-8编码(标准JSON要求),而你的源数据实际是GBK、GB2312或系统本地编码(如windows的CP936)时,nlohmann::json会把非ASCII字节当作非法UTF-8序列,抛出parse_error异常,错误信息类似"[json.exception.parse_error.101] parse error at line 1, column 2: syntax error while parsing value - invalid String: ill-formed UTF-8 byte

常见场景:从文件读取、std::cin输入、qtQFilemfcCStdioFile读出的中文文本,多数未转UTF-8就直接喂给json::parse()

如何确保输入是合法UTF-8再交给nlohmann

核心原则:nlohmann只接受UTF-8,所有中文字符必须在调用json::parse()前完成编码转换。

  • 如果源是Windows控制台或ANSI文件(CP936):
    MultiByteToWideChar(CP_ACP, ...) + WideCharToMultiByte(CP_UTF8, ...)转为UTF-8字符串,再构造std::string传入json::parse()
  • 如果源是Qt:QString::toUtf8().toStdString() 是安全的,但注意QString本身是UTF-16,需确认原始加载方式(如QTextCodec::codecForName("GBK")->toUnicode()后再toUtf8()
  • 如果源是c++11 std::ifstream读取的文本文件:
     • 不要用std::getline()直接读到std::string后就parse —— 文件若存为ANSI,读出的就是乱码字节
     • 先用工具(如Notepad++)确认文件编码;若为GBK,需用第三方库(如iconvutf8cpp)转码
  • linux/macOS下一般默认UTF-8,但仍建议用file -i filename.json验证

避免用std::wifstream + std::wstring绕过问题

有人尝试用宽字符流读取再转json::parse(),这是无效路径:nlohmann::json没有parse(const std::wstring&)重载,且其内部字符串存储为std::string(UTF-8),强行用std::wstring_convert<:codecvt_utf8>>(已弃用)或std::from_chars等转换极易出错。

立即学习C++免费学习笔记(深入)”;

  • std::wifstream默认按本地宽编码(如Windows是UTF-16 LE),但JSON规范禁止bom和UTF-16编码
  • 即使读成功,std::wstring含或代理对(surrogate pair)时,转UTF-8过程若漏处理,仍会导致parse_error
  • 直接操作UTF-8 std::string是最小可信路径,其他中间编码层都是风险点

调试时快速验证JSON字符串是否UTF-8合法

别靠肉眼判断中文是否“看起来正常”——要验证字节序列。

  • 在代码中加断点,打印json_string.data()前几个字节(十六进制),中文UTF-8通常是3字节序列(如”你好” → E4 BD A0 E5 A5 BD
  • 用命令行工具验证:echo -n '{"name":"你好"}' | iconv -f utf-8 -t utf-8 //check(Linux)或python一行:python3 -c "import json; json.loads('''{"name":"你好"}''')"
  • 若用VS调试,可在监视窗口输入json_string.c_str(),su(显示UTF-8字符串),而非json_string.c_str()(可能被当成ANSI)

nlohmann对中文没特殊逻辑,它的“坑”全来自你传进去的字节不是UTF-8——这个边界必须守死,任何想让库替你猜编码的做法都会在某个客户环境突然崩掉。

text=ZqhQzanResources