使用Pandas高效统计DataFrame每列唯一值并转换为字典

27次阅读

本教程旨在介绍如何利用pandas库高效地统计dataframe中每一列的唯一值及其出现次数，并将结果转换为一个嵌套字典，其中外层键为列名，内层键为唯一值，内层值为其计数。文章将提供一种简洁、无需显式循环的解决方案，避免了常见方法中可能引入`nan`值的缺陷。

引言：统计DataFrame列唯一值的需求

在数据分析和处理过程中，我们经常需要了解DataFrame中各列数据的分布情况，特别是统计每列中每个唯一值出现的频率。例如，对于一个包含多个类别或数值列的数据集，我们可能需要一个结构化的输出，能够清晰地展示每列的独特元素及其对应的计数。理想的输出形式是一个字典，其键是DataFrame的列名，值是另一个字典，该字典将列中的每个唯一元素映射到它的出现次数。

考虑以下示例DataFrame：

import pandas as pd  data = {'Col1': [1, 2, 2, 3, 1],         'Col2': ['A', 'B', 'B', 'A', 'C']} df = pd.DataFrame(data) print("原始DataFrame:") print(df)

我们期望得到的目标输出格式如下：

{'Col1': {1: 2, 2: 2, 3: 1},  'Col2': {'A': 2, 'B': 2, 'C': 1}}

此任务的挑战在于，如何在不使用显式循环 (for循环)、apply或agg等方法的前提下，实现高效且简洁的转换。

常见尝试与遇到的问题

一些用户可能会尝试使用stack()、groupby()和unstack()的组合来解决此问题，例如：

# 尝试方法 (存在缺陷) # count_matrix = df.stack().groupby(level=1).value_counts() # count_matrix = count_matrix.unstack(0) # count_matrix = count_matrix.to_dict()

这种方法虽然能进行计数，但在unstack()操作时，如果某些值在某些列中不存在，Pandas会用NaN值填充缺失的空白，这会导致最终的字典结构不符合预期，并且可能需要额外的清理步骤。因此，我们需要一种更直接、更“Pandas-idiomatic”的解决方案。

高效且简洁的解决方案

Pandas提供了一个非常方便的Series方法value_counts()，它可以直接统计Series中每个唯一值的出现次数，并返回一个新的Series，其索引是唯一值，值是对应的计数。结合python的字典推导式（dictionary comprehension），我们可以以极高的效率和简洁性实现目标。

核心思想是：

快转字幕

新一代 AI 字幕工作站，为创作者提供字幕制作、学习资源、会议记录、字幕制作等场景，一键为您的视频生成精准的字幕。

357

查看详情

遍历DataFrame的每一列。
对于每一列（即一个Pandas Series），调用value_counts()方法获取其唯一值计数。
将value_counts()返回的Series进一步转换为字典 (.to_dict())。
使用字典推导式将这些结果组合成最终的嵌套字典。

以下是实现此功能的代码：

import pandas as pd  # 示例DataFrame data = {'Col1': [1, 2, 2, 3, 1],         'Col2': ['A', 'B', 'B', 'A', 'C']} df = pd.DataFrame(data)  # 高效解决方案 result_dict = {col: df[col].value_counts().to_dict() for col in df}  print("n生成的字典结果:") print(result_dict)

代码解析：

for col in df: 这部分遍历了DataFrame df 的所有列名。
df[col]: 在每次迭代中，这会选择当前列 col 作为一个Pandas Series。
df[col].value_counts(): 对选定的Series调用value_counts()方法。例如，对于Col1，它会返回一个Series，内容为：
```
1    2 2    2 3    1 Name: Col1, dtype: int64
```
.to_dict(): 将value_counts()返回的Series转换为一个字典。例如，上述Series会变成{1: 2, 2: 2, 3: 1}。
{col: …}: 字典推导式将列名 col 作为外层字典的键，将转换后的计数字典作为其对应的值。

运行结果

执行上述代码后，将得到以下输出：

{'Col1': {1: 2, 2: 2, 3: 1}, 'Col2': {'A': 2, 'B': 2, 'C': 1}}

这正是我们所期望的输出格式，完美地满足了需求。

总结与注意事项

这种方法充分利用了Pandas Series的value_counts()方法的强大功能，结合Python简洁的字典推导式，提供了一个高效、可读性强且避免了额外NaN值处理的解决方案。

主要优势：

高效性： value_counts()在底层是高度优化的c语言实现，对于大型数据集也能保持良好的性能。
简洁性： 一行代码即可完成复杂的转换逻辑。
Pandas-idiomatic： 符合Pandas库的设计哲学，易于理解和维护。
无副作用： 不会引入NaN值或其他不必要的中间数据结构。

在处理需要对DataFrame各列进行独立统计并聚合结果的场景时，这种模式是非常推荐的。它不仅适用于计数，也可以根据实际需求替换value_counts()为其他Series操作，以实现更多样化的列级统计与转换。

发表于：后端开发

2025-10-26

复制链接

c++如何使用Boost库_c++ Boost功能与常用模块介绍

core dump 未生成的 kernel.core_pattern 与 systemd-coredump socket

javascript迭代器是什么_for of循环怎么工作【教程】

PhpStorm怎么调试PHP代码_PhpStorm断点设置与调试启动步骤【指南】

VSCode调试扩展：开发自定义调试器适配器的完整流程

使用Pandas高效统计DataFrame每列唯一值并转换为字典

引言：统计DataFrame列唯一值的需求

常见尝试与遇到的问题

高效且简洁的解决方案

运行结果

总结与注意事项

十大数字货币交易所App排名 2026最新交易所官方网站地址大全

Golang如何使用指针传递大对象_优化函数参数传递性能

如何让 range 输入值在页面中始终居中显示

Python 3.11+ 的 ExceptionGroup 如何在 asyncio.gather 中捕获

css 想实现暗黑模式切换颜色怎么办_css 变量配合 prefers-color-scheme 媒体查询

HTML5播放怎么切换Flash_网页提示不支持HTML5怎切Flash【解答】

sudoers 无密码提权但 sudo -l nothing 的 %wheel ALL=(ALL) NOPASSWD 配置

C++如何读取txt文件_C++文件流读取数据到数组教程【实例】

手机如何打开html网页文件怎么打开方式

币安官网正确地址入口2026 币安App v9.7.0最新版本安全通道