Python：基于字典映射高效统计列表中元素的出现次数

3次阅读

本文介绍如何在python中根据字典的键值列表，统计一个主列表中相关元素的总出现次数。我们将探讨一种高效的o(n)解决方案，通过预处理主列表构建一个中间计数字典，避免了传统嵌套循环导致的o(n^3)低效问题。教程将提供详细的vanilla python实现代码，并深入分析不同方法的时间复杂度，帮助读者理解和优化数据处理性能。

在数据处理和分析中，我们经常会遇到需要根据某种映射关系对数据进行聚合或统计的情况。一个典型的场景是，给定一个字典，其键对应一个值列表，我们希望统计另一个主列表中，与字典中每个键关联的值列表里的元素出现的总次数。

问题描述与示例

假设我们有一个字典 my_dict，其结构为键映射到一个包含多个元素的列表。同时，我们有一个 my_list，其中包含一系列待统计的元素。我们的目标是创建一个新的字典 new_dict，其中每个键与 my_dict 中的键相同，而其值则是 my_dict 中该键所对应列表中的所有元素在 my_list 中出现的总次数。

输入示例：

my_dict = {'A': ['A', 'B'], 'B': ['C', 'D'], 'C': ['E', 'F']} my_list = ['A', 'D', 'A', 'C', 'F', 'F']

期望输出：

立即学习“Python免费学习笔记（深入）”；

{'A': 2, 'B': 2, 'C': 2}

输出解释：

对于键 ‘A’：my_dict[‘A’] 是 [‘A’, ‘B’]。在 my_list 中，’A’ 出现了 2 次，’B’ 出现了 0 次。因此，’A’ 的总计数为 2。
对于键 ‘B’：my_dict[‘B’] 是 [‘C’, ‘D’]。在 my_list 中，’C’ 出现了 1 次，’D’ 出现了 1 次。因此，’B’ 的总计数为 1 + 1 = 2。
对于键 ‘C’：my_dict[‘C’] 是 [‘E’, ‘F’]。在 my_list 中，’E’ 出现了 0 次，’F’ 出现了 2 次。因此，’C’ 的总计数为 0 + 2 = 2。

传统低效方法及其性能分析

初学者可能会倾向于使用多层嵌套循环来解决这个问题。例如，对于 my_dict 中的每个键，遍历其关联的值列表，然后对 my_list 进行遍历以查找并计数。

# 示意性的低效实现（不推荐） def count_nested_values_inefficient(my_dict: dict, my_list: list):     new_dict = {}     for key, values_in_dict in my_dict.items(): # 外层循环：my_dict 的键         current_count = 0         for target_val in values_in_dict: # 中间循环：my_dict 键对应的值列表             # 在 my_list 中查找 target_val 的出现次数             for list_item in my_list: # 内层循环：my_list                 if list_item == target_val:                     current_count += 1         new_dict[key] = current_count     return new_dict

这种方法的性能表现非常差。具体来说，它会导致 O(n³) 的时间复杂度，其中：

LALAL.AI

AI人声去除器和声乐提取工具

196

查看详情

最外层循环：my_dict 中的键数量。
中间循环：my_dict 中每个键对应的值列表的长度。
最内层循环：my_list 的长度。

更糟糕的是，如果使用 target_val in my_list 来检查元素是否存在并计数，Python 中列表的 in 操作符在最坏情况下是 O(n) 的时间复杂度（需要遍历整个列表）。这意味着每次查找都会重新遍历 my_list。在我们的示例中，my_dict 有 3 个键，my_list 有 6 个元素，my_dict 中最长的值列表有 2 个元素。因此，总迭代次数大约为 3 * 2 * 6 = 36 次，这在小型数据集上可能不明显，但对于大型数据集，性能会急剧下降。

高效解决方案：预处理与字典优化

为了避免重复遍历 my_list 并利用字典 O(1) 的查找效率，我们可以采用一种两阶段的方法：

预处理 my_list： 首先，遍历 my_list，统计其中每个元素的出现次数，并将结果存储在一个临时的字典 counts 中。
构建 new_dict： 接着，遍历 my_dict。对于 my_dict 中的每个键及其关联的值列表，遍历该值列表中的每个元素。通过在第一步构建的 counts 字典中查找这些元素的计数，并累加到 new_dict 对应键的总计数中。

这种方法将大大提高效率，将整体时间复杂度降低到 O(n)。

代码实现

def count_nested_values(my_dict: dict, my_list: list) -> dict:     """     根据字典映射高效统计列表中元素的出现次数。      参数:         my_dict (dict): 键映射到值列表的字典。         my_list (list): 待统计元素的主列表。      返回:         dict: 新的字典，键与 my_dict 相同，值为 my_dict 键对应值列表中元素在 my_list 中出现的总次数。     """      # 阶段1: 预处理 my_list，统计每个元素的出现次数     # 构建一个中间字典 counts，键为 my_list 中的元素，值为其出现次数。     counts = {}     for list_val in my_list:         counts[list_val] = counts.get(list_val, 0) + 1     # 此阶段的时间复杂度为 O(len(my_list))，因为字典的插入和查找操作平均为 O(1)。      # 阶段2: 遍历 my_dict，根据预处理结果计算最终计数     new_dict = {}     for k, dict_val_list in my_dict.items():         # 初始化当前键的总计数         new_dict[k] = 0          # 遍历 my_dict 中当前键对应的值列表         for target_val in dict_val_list:             # 从 counts 字典中查找 target_val 的出现次数             # 使用 .get() 方法避免 KeyError，如果元素不存在则返回 0             new_dict[k] += counts.get(target_val, 0)     # 此阶段的时间复杂度为 O(len(my_dict) + sum(len(v) for v in my_dict.values()))     # 因为字典的查找操作平均为 O(1)。      return new_dict  # 示例调用 my_dict = {'A': ['A', 'B'], 'B': ['C', 'D'], 'C': ['E', 'F']} my_list = ['A', 'D', 'A', 'C', 'F', 'F']  result_dict = count_nested_values(my_dict, my_list) print(result_dict)

输出：

{'A': 2, 'B': 2, 'C': 2}

性能分析

阶段1 (预处理 my_list)： 遍历 my_list 一次，对每个元素进行字典查找和更新操作。由于字典的平均查找和插入时间复杂度为 O(1)，因此此阶段的总时间复杂度为 O(M)，其中 M 是 my_list 的长度。
阶段2 (构建 new_dict)： 遍历 my_dict 的键值对一次，然后对每个值列表（假设总共有 N 个嵌套值）中的元素进行字典查找和累加。此阶段的总时间复杂度为 O(K + N)，其中 K 是 my_dict 的键数量，N 是 my_dict 中所有值列表的元素总数。

因此，整个算法的综合时间复杂度为 O(M + K + N)，可以简化为 O(n)，其中 n 是所有相关输入数据（my_list 的长度以及 my_dict 的键数量和所有嵌套值的总数）的总规模。这与 O(n³) 的低效方法相比，是一个巨大的性能提升。

注意事项与总结

空间换时间： 这种高效方法通过引入一个中间字典 counts 来存储 my_list 中元素的计数，从而牺牲了一定的内存空间。然而，这种内存开销通常是可接受的，因为它带来了显著的时间性能提升，尤其是在处理大型数据集时。
适用场景： 如果你的输入数据量较小，例如 my_list 和 my_dict 的规模都不会超过几十个元素，那么即使是 O(n³) 的方法也可能在毫秒级别完成，性能差异不明显。但对于生产环境或处理大规模数据时，采用 O(n) 的优化方案是至关重要的。
Python 标准库 collections.Counter： 如果允许使用 Python 标准库，collections.Counter 提供了更简洁的方式来完成第一阶段的预处理：counts = collections.Counter(my_list)。其底层实现也类似地利用了哈希表（字典）的原理，提供了高效的计数功能。本教程提供的 Vanilla Python 实现展示了 Counter 在底层所做的工作。

通过理解并应用这种预处理和字典优化的策略，我们不仅能够解决特定的计数问题，还能深入理解算法的时间复杂度，从而在日常编程中写出更高效、更具扩展性的代码。

发表于：后端开发

近两天内

# python # 循环 # 标准库 # 算法 # 键值对

复制链接

提升PyTesseract OCR对低分辨率数字图像的识别准确率

C++STL multimap与map使用区别

Go语言音频处理库探索：从波形数据提取到生态系统概览

Golang如何优化map访问性能

cssmargin自动对齐不生效怎么处理_css对齐问题用auto搭配flex实现居中

Python：基于字典映射高效统计列表中元素的出现次数

问题描述与示例

传统低效方法及其性能分析

高效解决方案：预处理与字典优化

代码实现

性能分析

注意事项与总结

Python3多线程怎么实现_Python3多线程编程方法与实例解析

Python中管理类常量实例与避免循环依赖的策略

Go regexp 包中 . 字符匹配换行符的行为解析与 (?s) 标志应用

比特币ETF全解析：它对普通投资者意味着什么

如何使用Foundation框架进行响应式布局_实战项目应用

Flask-Security-Too 异步邮件发送的重构与通用解决方案

css子元素在交叉轴无法居中怎么办_使用align-items:center解决问题

Linux sed命令使用说明_Linux流编辑器修改文本实例

mysql如何限制数据库操作_mysql数据库操作限制方法

一文了解Meme季回归？三大信号齐发，12月或掀起加密市场狂潮