C++如何实现简单的哈夫曼编码压缩算法_C++数据结构应用实战教程【练习】

2次阅读

哈夫曼编码本身不直接压缩文件，仅生成最优前缀码；真正压缩需字节流重组，用priority_queue构建树时需小顶堆，递归生成编码须引用传递code并手动回溯，位流压缩需逐位写入字节数组并记录补零数。

哈夫曼编码本身不直接“压缩文件”，它只是生成最优前缀码；真正压缩需要结合字节流重组（比如把 0/1 拼成 bit-level 数据），否则用 std::String 存二进制码反而会膨胀数倍。

核心是自定义比较：让频率小的节点优先级高（小顶堆）。注意不能只重载 operator，而要传入仿函数或 lambda，因为 <code>priority_queue 默认是大顶堆。

定义节点结构体，含 freq、left、right、ch（叶子节点才有效）
构造 priority_queue<node vector>, decltype(cmp)></node>，其中 cmp 是 [&](Node* a, Node* b) { return a->freq > b->freq; }
每次取两个最小频次节点合并，新节点频次为二者和，左右子树分别挂上这两个节点
最后队列只剩一个根节点 —— 这就是哈夫曼树根

如果用值传递，每层递归都会拷贝当前路径字符串，深度为 h 的树总开销达 O(h²)；更严重的是，回溯时无法自动“弹出”最后一位，导致编码错乱。

正确做法：参数声明为 string& code
进入左子树前 push_back(‘0’)，返回前 pop_back()
进入右子树前 push_back(‘1’)，返回前 pop_back()
遇到叶子节点（node->left == nullptr && node->right == nullptr）时，保存 code 到 map<char string></char>

直接存每个字符的 string 编码（如 "10110"）会导致：原 1 字节变成 5 字节以上。必须按位写入字节数组。

最易被忽略的是：哈夫曼编码无唯一解 —— 同频节点合并顺序不同会导致树结构不同，但只要保证前缀性质，压缩率理论一致；实际中建议固定左子树频次 ≤ 右子树，便于调试比对。

发表于：后端开发

近一天内

复制链接

PySpark 中使用 pivot 实现键值对数据到宽表结构的高效转换

C++ 怎么判断路径有效 C++ filesystem status检查【路径】