C++如何实现简单的哈夫曼编码压缩算法_C++数据结构应用实战教程【练习】

2次阅读

哈夫曼编码本身不直接压缩文件,仅生成最优前缀码;真正压缩需字节流重组,用priority_queue构建树时需小顶递归生成编码须引用传递code并手动回溯,位流压缩需逐位写入字节数组并记录补零数。

C++如何实现简单的哈夫曼编码压缩算法_C++数据结构应用实战教程【练习】

哈夫曼编码本身不直接“压缩文件”,它只是生成最优前缀码;真正压缩需要结合字节流重组(比如把 0/1 拼成 bit-level 数据),否则用 std::String 存二进制码反而会膨胀数倍。

如何用 priority_queue 构建哈夫曼树

核心是自定义比较:让频率小的节点优先级高(小顶堆)。注意不能只重载 operator,而要传入仿函数或 lambda,因为 <code>priority_queue 默认是大顶堆。

  • 定义节点结构体,含 freqleftrightch(叶子节点才有效)
  • 构造 priority_queue<node vector>, decltype(cmp)></node>,其中 cmp[&](Node* a, Node* b) { return a->freq > b->freq; }
  • 每次取两个最小频次节点合并,新节点频次为二者和,左右子树分别挂上这两个节点
  • 最后队列只剩一个根节点 —— 这就是哈夫曼树根

为什么递归遍历生成编码时必须用引用传递 code 字符串

如果用值传递,每层递归都会拷贝当前路径字符串,深度为 h 的树总开销达 O(h²);更严重的是,回溯时无法自动“弹出”最后一位,导致编码错乱。

  • 正确做法:参数声明为 string& code
  • 进入左子树前 push_back(‘0’),返回前 pop_back()
  • 进入右子树前 push_back(‘1’),返回前 pop_back()
  • 遇到叶子节点(node->left == nullptr && node->right == nullptr)时,保存 codemap<char string></char>

如何把字符序列转成紧凑的 bit stream(避免空间爆炸)

直接存每个字符的 string 编码(如 "10110")会导致:原 1 字节变成 5 字节以上。必须按位写入字节数组。

立即学习C++免费学习笔记(深入)”;

  • vector<uint8_t></uint8_t> 存压缩后数据,维护当前字节 current_byte 和已写位数 bits_in_byte
  • 对每个编码字符串,逐字符读 ‘0’/’1’:设 bit = (c == ‘1’),然后 current_byte |= (bit
  • 每写满 8 位就 push_back(current_byte),并重置 current_byte = 0bits_in_byte = 0
  • 编码结束时若 bits_in_byte > 0,需 push 剩余字节,并在解码端记录实际末尾位数(通常额外存 1 字节表示补零数)

最易被忽略的是:哈夫曼编码无唯一解 —— 同频节点合并顺序不同会导致树结构不同,但只要保证前缀性质,压缩率理论一致;实际中建议固定左子树频次 ≤ 右子树,便于调试比对。

text=ZqhQzanResources