c++ finding substring_c++ string find函数用法

18次阅读

std::String::find 返回 std::string::npos 表示未找到,其值为 size_t 类型的最大值(如 64 位系统为 18446744073709551615),必须用 size_t 接收并与其比较才可靠。

c++ finding substring_c++ string find函数用法

string::find 返回值为 std::string::npos 时代表什么

它不代表“没找到”,而是代表“未找到”——更准确地说,是函数返回一个**无符号整数最大值**(static_cast(-1))。一旦你用 int 接收返回值并和 -1 比较,就会出错:

std::string s = "hello"; int pos = s.find("xyz");  // ❌ 错误:隐式截断,pos 可能变成 4294967295 或负数 if (pos == -1) { ... }   // 这个判断大概率失效

正确做法是始终用 size_t 接收,并与 std::string::npos 比较:

  • size_t pos = s.find("abc"),不是 intauto(除非确定上下文安全)
  • if (pos != std::string::npos) 是唯一可靠的判断方式
  • std::string::npossize_t 类型,值通常为 18446744073709551615(64 位系统)

find 的重载版本怎么选:从 const char* 到 string_view

常见误用是传入字符串字面量却忽略长度计算开销。例如:

std::string s = "apple pie"; s.find("pie");           // ✅ 调用 find(const char*, pos),自动算 strlen("pie")

但如果你反复调用、且子串固定,strlen 就成了隐藏瓶颈。c++17 起推荐显式用 std::string_view 避免重复计算:

立即学习C++免费学习笔记(深入)”;

#include  std::string_view target = "pie"; s.find(target);          // ✅ 不触发 strlen,也不构造临时 string
  • find(const std::string&):会拷贝或引用,适合复用的 std::string 对象
  • find(const char*):最常用,但每次调用都重新算长度
  • find(std::string_view):零开销抽象,C++17+ 推荐用于字面量或已知长度的场景

find 找不到时返回 npos,但找得到时返回的是第一个匹配位置

这个“第一个”指从指定起始位置开始向后扫描的第一个完整匹配,不是“最短”或“最长”。比如:

std::string s = "abababa"; size_t pos = s.find("aba");  // 返回 0,不是 2 或 4

如果你想跳过前 n 次匹配,必须手动推进搜索起点:

  • 第一次:pos = s.find("aba")
  • 第二次:pos = s.find("aba", pos + 1)(注意是 +1,不是 +3;+1 才能覆盖重叠匹配)
  • 第三次:pos = s.find("aba", pos + 1)

重叠匹配(如 "aaa" 中找 "aa")默认是支持的,只要起始位置合法。

性能陷阱:频繁调用 find 做分词或解析时别硬刚

如果目标是按分隔符切分字符串(比如解析 csv),直接链式调用 find + substr 很容易写出 O(n²) 代码:

// ❌ 低效示例:每次 find 都从头扫,substr 多次分配 std::vector Tokens; size_t start = 0, end; while ((end = s.find(',', start)) != std::string::npos) {     tokens.push_back(s.substr(start, end - start));  // 新建 string     start = end + 1; }

更高效的方式是只存视图或用迭代器遍历:

  • std::string_view 替代 std::string 存 token(避免内存分配)
  • 改用 std::string::find_first_of 批量查多个分隔符(如 " tn,"
  • 对超长字符串,考虑用 std::boyer_moore_searcher(C++17)加速单次大子串查找

find 本身是朴素算法(O(n×m)),不适用于高频、大数据量的子串定位场景。

text=ZqhQzanResources