c++ char*与string互转_c++字符串转换详解

32次阅读

charString安全,需确保非空且以’’结尾;string转char须注意c_str()返回指针的生命周期,仅在原string有效且未修改时可用。

c++ char*与string互转_c++字符串转换详解

char* 转 string 很安全,直接构造就行

只要 char* 指向的是以 '' 结尾的有效 C 风格字符串,用 std::string 构造函数或赋值即可,底层会自动拷贝内容。

常见错误是传入空指针或野指针:nullptr 传给 std::string 构造函数会抛出 std::logic_error(GCC/Clang 表现为 std::Length_error 或直接崩溃);未初始化的指针更危险。

  • 安全写法:
    const char* cstr = "hello"; std::string s(cstr);  // 或 s = cstr;
  • 防崩写法(加判空):
    if (cstr != nullptr) {     std::string s(cstr); }
  • 注意:std::string s = cstr;std::string s(cstr); 行为一致,都是深拷贝,不共享内存

string 转 char* 必须小心生命周期

std::string::c_str()std::string::data() 返回的 const char* 仅在原 string 对象**有效且未被修改**时才有效。一旦 string 被析构、移动、重新赋值或调用非 const 成员函数(如 push_back),指针立即失效。

  • 错误示范(悬垂指针):
    const char* p; {     std::string s = "temp";     p = s.c_str();  // p 现在指向 s 内部缓冲区 } // s 析构 → p 失效!后续用 p 是未定义行为 printf("%s", p); // 崩溃或乱码
  • 正确做法一(需长期使用):
    std::string s = "hello"; std::vector buf(s.begin(), s.end()); buf.push_back(''); const char* p = buf.data(); // buf 生命周期可控
  • 正确做法二(C API 调用场景):
    std::string path = "/etc/passwd"; int fd = open(path.c_str(), O_RDONLY); // c_str() 仅在此行有效,安全

需要可修改的 char*?别用 c_str(),用 data() + reserve() 配合

c_str() 返回的是 const char*,不能写;data()c++11 中也返回 const char*,直到 C++17 才允许通过非 const 引用获取可写指针。真正安全获取可写缓冲区的方式是自己管理内存或用 std::vector

立即学习C++免费学习笔记(深入)”;

  • C++17+ 可写方式(仍需确保容量足够):
    std::string s = "hello"; s.resize(10); // 确保至少 10 字节,含 '' char* writable = &s[0]; // 合法,s 未 move/resize 时有效 strcpy(writable, "world"); // OK
  • 更通用(兼容老标准):
    std::string s = "hello"; std::vector v(s.begin(), s.end()); v.push_back(''); char* c = v.data(); // 可读可写,v 控制生命周期
  • 警告:&s[0]s.empty() 时是未定义行为,必须先 !s.empty()s.resize(1)

中文等多字节字符要留意编码和长度单位

std::stringchar* 都是字节容器,不感知 UTF-8、GBK 等编码。一个中文字符在 UTF-8 中占 3 字节,s.length() 返回的是字节数,不是字符数;strlen(cstr) 同理。

  • 误用示例:
    std::string s = "你好"; // UTF-8 编码,长度为 6 printf("len=%zun", s.length()); // 输出 6,不是 2 for (size_t i = 0; i < s.length(); ++i) {     printf("%02x ", (unsigned char)s[i]); // 打印 6 个字节 }
  • 若需按 Unicode 字符处理,必须用 ICU、utf8cpp 等库解析,不能靠 std::string::size()循环 ++p
  • 跨平台传递字符串时,明确约定编码(推荐 UTF-8),避免 windows 上默认 ANSI 导致乱码

实际项目里最常踩的坑不是语法不会,而是把 c_str() 结果存起来长期用,或者对空字符串、移动后对象反复取指针。只要盯住「谁拥有内存」「什么时候失效」这两点,转换就没大问题。

text=ZqhQzanResources