C++怎么实现AC自动机_C++多模式串匹配算法【文本】

8次阅读

ac自动机核心是trie树加bfs构建fail指针:先插入模式串建trie,再用队列bfs为每个节点计算fail——u的子节点v的fail指向fail[u]向下找v->ch的子节点,找不到则继续跳fail链;node需含next[26]/map、fail、end_id;匹配时每步沿fail链回溯收集所有end_id,支持重叠匹配;内存宜用静态数组预分配,end_id用int标识单匹配,多匹配另设output映射。

C++怎么实现AC自动机_C++多模式串匹配算法【文本】

AC自动机核心结构怎么建:Node设计和fail指针构造

AC自动机本质是Trie树 + BFS构建的fail指针,不是靠递归或暴力回溯。关键在两个动作:插入所有模式串建Trie,再用BFS给每个节点算fail指针。

常见错误是把fail写成“父节点的子节点匹配失败就跳到父节点的fail”,漏掉“继续往下找子节点”这步——正确逻辑是:当前节点u的子节点v,其fail[v] = fail[u]向下找v->ch对应的子节点,找不到就继续跳fail[fail[u]],直到根或找到为止。

  • Node里至少存next[26](或unordered_map<char node></char>)、failend_id(标记是否为某模式串结尾,可存多个ID)
  • fail必须用队列BFS,不能DFS;否则深度不够,上层fail还没算好,下层就依赖它
  • 根节点fail指向自身或nullptr,但后续遍历中要特殊处理,避免空指针解引用

多模式匹配时怎么跑文本:边走边跳fail,别只走next

单靠Trie的next只能匹配前缀,AC自动机真正发力在失配时沿fail跳转并累积输出。文本指针每走一位,都要从当前节点出发,不断跳fail,收集所有经过的end_id

典型错误是“匹配到一个模式串就重置节点回根”,这会漏掉重叠匹配(如文本"ababab"中模式"abab""baba");或者只检查当前节点end_id,不向上跳fail链查更短的后缀模式。

立即学习C++免费学习笔记(深入)”;

  • 对文本每个字符c,先尝试cur = cur->next[c];若为空,则cur = cur->fail直到cur非空或到根
  • 然后从该cur开始,沿fail链向上遍历(用while循环),只要节点end_id != -1就记录匹配
  • 如果模式串允许重叠(绝大多数场景都允许),不能在匹配后cur = root,必须保持当前cur继续跑下一个字符

内存和性能怎么控:静态数组 vs 指针,以及end_id怎么存

AC自动机最耗资源的是节点数,最大可能达所有模式串总长度(比如10万串,平均长50,节点就500万)。用动态new Node易触发频繁分配,用静态数组预分配更稳,但得估算上限。

end_id如果只存一个int,就无法支持同一位置匹配多个模式;若用vector<int></int>又增内存开销。实际项目中常用位图或单独的output[]数组映射。

  • 小写字母场景直接用Node* next[26],访问快;含大小写/数字时改用unordered_map<char node></char>,但哈希有常数开销
  • 静态数组建议按max_nodes = total_pattern_length + 10预分配,配合pool[idx]alloc()管理,避免new/delete抖动
  • end_id推荐存为int,-1表示无,>=0表示唯一ID;多个模式需匹配则另建vector<vector>> outputs</vector>,以节点ID为索引

调试fail指针总出错?用BFS序打印+手动验3个节点

fail指针错,90%是因为BFS入队顺序或空节点处理不对。最有效验证法:打印BFS序中前3个非根节点的fail指向,并手算它们应该跳去哪。

例如插入"he""she""his""hers",节点"she"结尾的s-h-e,其fail应指向根下'e'(即"he"的结尾),而不是"h"nullptr。一旦发现跳到了不存在的字符路径,说明BFS时没处理next[c] == nullptr的补全逻辑。

  • BFS循环内,对每个出队节点u,遍历所有c,若u->next[c]存在,则设其fail;若不存在,显式设u->next[c] = u->fail->next[c](前提是u->fail已设好)
  • 打印时加一句:printf("node[%d] fail→%d (ch='%c')n", idx, fail_idx, c),比GDB单步快得多
  • 测试用例务必包含前缀/后缀重叠,如"abc""bc",否则fail链根本不会被触发

c++里AC自动机的坑不在算法本身,而在fail指针构造时对空next的补全逻辑、匹配时对fail链的完整遍历、以及节点内存布局对缓存友好性的隐性影响。这些地方一错,表现就是漏匹配、崩溃、或速度骤降几倍。

text=ZqhQzanResources