如何使用 Pandas 的 pivot 方法将分类列值转为新列

16次阅读

如何使用 Pandas 的 pivot 方法将分类列值转为新列

本文介绍如何利用 pandas 内置的 `pivot()` 方法,将某列(如 class)中的唯一值动态转化为列名,并将对应另一列(如 rank)的值填充到新结构中,实现“长表→宽表”的高效重塑。

在数据处理中,常需将“长格式”(long format)表格转换为“宽格式”(wide format),例如将类别变量(如学科名称)作为列标题,而将对应的指标值(如排名)填入单元格。Pandas 提供了简洁高效的 DataFrame.pivot() 方法专门解决此类问题。

核心逻辑是:指定一个行索引列(index)、一个新列名来源列(columns)和一个填充值列(values)。以示例数据为例:

import pandas as pd  df = pd.DataFrame({     'Name': ['Karl', 'George', 'Karl', 'George', 'Rex', 'Rex'],     'Class': ['math', 'English', 'English', 'Math', 'Math', 'English'],     'Rank': [1, 1, 2, 3, 2, 3] })  # 执行透视变换 result = df.pivot(index='Name', columns='Class', values='Rank').reset_index() result.columns.name = None  # 清除列层级名称(避免输出中出现 "Class" 标题)  print(result)

输出结果为:

Name  English  Math 0  George        1     3 1    Karl        2     1 2     Rex        3     2

⚠️ 注意事项:

  • pivot() 要求 (index, columns) 组合必须唯一,否则会报 ValueError: Index contains duplicate entries。若存在重复组合(如同一人同一学科有多条 Rank 记录),应先用 pivot_table() 替代,并指定聚合函数(如 aggfunc=’first’ 或 ‘mean’)。
  • 默认生成的列具有 MultiIndex 结构,.columns.name = None 可清除顶部冗余标签;如需固定列顺序(如 [‘Name’, ‘Math’, ‘English’]),可显式重排:result = result[[‘Name’, ‘Math’, ‘English’]]。
  • 若需按姓名排序,可在 .reset_index() 后添加 .sort_values(‘Name’).reset_index(drop=True)。

该方法无需循环或手动分组,代码简洁、性能优异,是 Pandas 数据重塑的标准实践。

text=ZqhQzanResources