C++如何进行字符串去重？（set或unordered_set处理）

3次阅读

std::set适合去重并排序字符串集合，std::unordered_set适合快速去重不关心顺序，字符级去重要用unordered_set或vector（ASCII限定）。

用 `std::set` 去重字符串，适合需要排序结果的场景

如果你希望去重后字符串自动按字典序排列，std::set 是最直接的选择。它底层是红黑树，插入时自动去重+排序，但代价是每次插入 O(log n) 时间。

常见错误是误以为 std::set<:String></:string> 能直接处理字符级去重——它处理的是整个字符串的集合去重，不是单个字符串内部字符去重。这点必须分清。

使用场景：有一组重复的字符串（比如日志中的 URL 列表），要提取唯一值并排序

代码示例：

std::vector<std::string> v = {"apple", "banana", "apple", "cherry"}; std::set<std::string> s(v.begin(), v.end()); // 自动去重+排序

注意：std::set 不支持重复键，但也不支持修改已有元素；想更新得先 erase 再 insert
兼容性没问题，c++11 起完全可用

用 `std::unordered_set` 去重字符串，追求速度优先

当只关心“有没有重复”，不关心顺序，且数据量大时，std::unordered_set 更合适。平均插入/查找是 O(1)，但最坏退化到 O(n)（哈希冲突严重时）。

容易踩的坑是忘记自定义哈希或等价比较——对 std::string 不用操心，标准库已提供；但如果你存的是 std::vector<int></int> 或自定义结构体，就必须自己写 hash 和 operator==。

立即学习“C++免费学习笔记（深入）”；

使用场景：读取配置文件，快速判断某个字符串是否已出现过

示例：

std::unordered_set<std::string> seen; for (const auto& s : strings) {     if (seen.find(s) == seen.end()) {         // 第一次见         seen.insert(s);     } }

unordered_set 迭代器遍历顺序不确定，别依赖输出顺序
内存占用比 set 略高，因需维护哈希桶

对单个字符串做字符级去重，别用 `set` 容器直接套

标题里说的“字符串去重”，很多人实际想的是类似 "abac" → "abc" 这种内部字符去重。这时候用 std::set<char></char> 没问题，但不能直接拿 std::set<:string></:string> 去套——那是语义错位。

更常见的错误是边遍历边删字符，导致索引错乱；或者用 std::unique 但忘了先排序（它只去相邻重复）。

正确做法：遍历原字符串，用 std::unordered_set<char></char> 记录见过的字符，再拼新串

示例：

std::string dedup(const std::string& s) {     std::unordered_set<char> seen;     std::string res;     for (char c : s) {         if (seen.find(c) == seen.end()) {             seen.insert(c);             res += c;         }     }     return res; }

如果要求保持原始字符首次出现顺序，就不能用 std::set<char></char> 后再转 vector 排序——顺序就丢了
注意空字符 '' 和多字节字符（如 UTF-8 中文）：这个方法只按字节处理，对 UTF-8 会出错

性能敏感时，`std::vector<bool></bool>` 替代 `unordered_set<char></char>` 更快

当确定字符串只含 ASCII 字符（0–127），且内存不是瓶颈，用 std::vector<bool></bool> 或原始数组标记比 unordered_set<char></char> 快得多——没有哈希计算、没有动态内存分配。

但一旦涉及扩展字符集（比如 Latin-1 的 0–255），或者你不敢保证输入范围，这种优化就得放弃，否则越界访问就是未定义行为。

示例：

std::string dedup_ascii(const std::string& s) {     std::vector<bool> seen(128, false); // ASCII 范围     std::string res;     for (char c : s) {         unsigned char uc = c; // 防止 char 为 signed 导致负索引         if (uc < 128 && !seen[uc]) {             seen[uc] = true;             res += c;         }     }     return res; }

注意 char 类型在不同平台可能是 signed 或 unsigned，强制转 unsigned char 再索引才安全
std::vector<bool></bool> 是特化模板，空间紧凑但可能有访问开销；真极致性能可考虑 std::Array<bool></bool>

事情说清了就结束。字符级去重和字符串集合去重是两回事，选错容器类型是最高频的失误；而 ASCII 优化看似快，一不留神就撞上编码边界。

发表于：php框架

近三天内

复制链接

如何修复网页中后续区块始终覆盖在首区块之上的问题

PHP中正确处理PDO查询结果中对象属性的空值与对象存在性检查

SQL数据库执行计划生成_解析绑定与优化阶段

MySQL数据库基本概念中什么是分库分表？分片策略与水平拆分原理

css过渡如何添加透明渐变效果_通过background-image和transition实现渐变过渡

C++如何进行字符串去重？（set或unordered_set处理）

用 `std::set` 去重字符串，适合需要排序结果的场景

用 `std::unordered_set` 去重字符串，追求速度优先

对单个字符串做字符级去重，别用 `set` 容器直接套

性能敏感时，`std::vector<bool></bool>` 替代 `unordered_set<char></char>` 更快

SQL INNER JOIN 与 LEFT JOIN 区别分析

Linux minikube 的 –driver=none vs docker vs podman 隔离性对比

php获取本机ip含端口吗_php分离ip与端口方法【步骤】

编写高效的Golang Dockerfile_从多阶段构建到镜像瘦身

如何让绝对定位元素突破父容器的 overflow: hidden 限制

Go 中引用类型作为函数参数的正确传递方式

为什么链上活动会影响价格_如何分析链上行为

Laravel HTTP 客户端 POST 请求参数为空的解决方案

JavaScript 中箭头函数、普通方法与 bind 的内存与性能深度解析

如何使用 Selenium 在 Python 中精准定位并点击页面中的按钮

C++如何进行字符串去重？（set或unordered_set处理）

用 std::set 去重字符串，适合需要排序结果的场景

用 std::unordered_set 去重字符串，追求速度优先

对单个字符串做字符级去重，别用 set 容器直接套

性能敏感时，std::vector<bool></bool> 替代 unordered_set<char></char> 更快

用 `std::set` 去重字符串，适合需要排序结果的场景

用 `std::unordered_set` 去重字符串，追求速度优先

对单个字符串做字符级去重，别用 `set` 容器直接套

性能敏感时，`std::vector<bool></bool>` 替代 `unordered_set<char></char>` 更快