规范化处理带符号列名的Pandas DataFrame

5次阅读

本教程旨在指导用户如何规范化处理带有特殊前缀（如’+’和’-‘）的pandas dataframe列名及其对应数值。文章将详细介绍如何识别并处理负号列，统一列名，并通过列分组求和的方式，将具有相同基础名称的正负列合并为单一列，实现数据规范化，最终生成一个结构清晰、易于分析的数据集。

在数据处理过程中，我们经常会遇到需要对DataFrame中的列进行聚合或规范化的场景。特别是当列名中包含表示操作类型（如加减）的特殊字符时，如何有效地将其转换为统一的格式并进行数值计算，是一个常见的挑战。本教程将以一个具体的案例为例，详细讲解如何使用Pandas库实现这一目标。

场景描述

假设我们有一个Pandas DataFrame，其列名以+或-符号开头，表示该列的数值属性。例如，+Col01和-Col01可能分别代表某个指标的正面值和负面值。我们的目标是将这些带有符号的列规范化，具体操作包括：

将所有以-开头的列的数值乘以-1，以便后续求和操作能正确地实现减法效果。
移除所有列名中的+或-符号，得到一个简洁的列名（如Col01）。
对于具有相同基础列名（例如Col01）的列，将其数值进行合并（求和），从而得到规范化后的单一列。

准备示例数据

首先，我们创建一个示例DataFrame，模拟上述场景中的数据结构：

import pandas as pd  data = {     'RepID': [1, 2, 3, 4, 5],     '+Col01': [5, 1, 9, 3, 0],     '+Col02': [7, 3, 8, 1, 7],     '+Col03': [9, 3, 0, 0, 1],     '-Col01': [8, 3, 9, 5, 2],     '+Col04': [3, 1, 4, 8, 0],     '+Col05': [8, 2, 9, 7, 0],     '-Col03': [1, 2, 5, 1, 2],     '-Col04': [9, 3, 1, 0, 9],     '+Col06': [4, 6, 2, 9, 2],     '-Col07': [6, 0, 0, 2, 1] } df = pd.DataFrame(data)  print("原始 DataFrame:") print(df)

原始DataFrame的输出如下：

原始 DataFrame:    RepID  +Col01  +Col02  +Col03  -Col01  +Col04  +Col05  -Col03  -Col04  +Col06  -Col07 0      1       5       7       9       8       3       8       1       9       4       6 1      2       1       3       3       3       1       2       2       3       6       0 2      3       9       8       0       9       4       9       5       1       2       0 3      4       3       1       0       5       8       7       1       0       9       2 4      5       0       7       1       2       0       0       2       9       2       1

规范化处理步骤

我们将分步实现数据的规范化。

步骤一：处理负号列的数值

识别所有以-开头的列，并将其数值乘以-1。这样做的目的是将原始的减法操作（例如+Col01 – -Col01）转换为加法操作（+Col01 + (-1 * -Col01)），以便后续使用sum()函数进行聚合。

# 1. 识别所有以'-'开头的列 cols_to_negate = df.columns[df.columns.str.startswith('-')]  # 2. 将这些列的数值乘以-1 df[cols_to_negate] = df[cols_to_negate].mul(-1)  print("n处理负号列后的 DataFrame (部分列数值已变负):") print(df)

此时，DataFrame中以-开头的列的数值将变为负数。例如，原始的-Col01值为[8, 3, 9, 5, 2]，处理后将变为[-8, -3, -9, -5, -2]。

步骤二：统一列名

移除所有列名中的+或-符号，使其只保留基础名称。这可以通过字符串替换操作和正则表达式实现。

Sitekick

一个AI登陆页面自动构建器

121

查看详情

# 1. 生成新的列名组（移除'+'和'-'） # 使用正则表达式`[+-]`匹配'+'或'-'，并替换为空字符串 grp_names = df.columns.str.replace(r'[+-]', '', Regex=True)  print("n生成的基础列名组:") print(grp_names)

grp_names将是一个Index对象，包含如[‘RepID’, ‘Col01’, ‘Col02’, …]这样的基础列名。

步骤三：按统一列名进行分组求和

利用步骤二中生成的统一列名，对DataFrame进行列方向（axis=1）的分组求和。groupby(grp_names, axis=1)会将具有相同基础列名的原始列（例如+Col01和处理后的-Col01）分到同一组。然后，sum()操作将对这些组内的数值进行求和。sort=False参数用于保留原始列的相对顺序，这在某些情况下有助于保持输出的逻辑性。

# 1. 根据新的列名组进行分组，并在列方向（axis=1）上求和 output_df = df.groupby(grp_names, axis=1, sort=False).sum()  print("n最终规范化后的 DataFrame:") print(output_df)

完整代码示例

将上述所有步骤整合到一起，形成完整的解决方案：

import pandas as pd  # 准备示例数据 data = {     'RepID': [1, 2, 3, 4, 5],     '+Col01': [5, 1, 9, 3, 0],     '+Col02': [7, 3, 8, 1, 7],     '+Col03': [9, 3, 0, 0, 1],     '-Col01': [8, 3, 9, 5, 2],     '+Col04': [3, 1, 4, 8, 0],     '+Col05': [8, 2, 9, 7, 0],     '-Col03': [1, 2, 5, 1, 2],     '-Col04': [9, 3, 1, 0, 9],     '+Col06': [4, 6, 2, 9, 2],     '-Col07': [6, 0, 0, 2, 1] } df = pd.DataFrame(data)  print("原始 DataFrame:") print(df)  # --- 规范化处理 ---  # 步骤1: 识别并处理负号列的数值 # 提取所有以'-'开头的列名 cols_to_negate = df.columns[df.columns.str.startswith('-')] # 将这些列的数值乘以-1 df[cols_to_negate] = df[cols_to_negate].mul(-1)  # 步骤2: 统一列名 # 使用正则表达式移除列名中的'+'或'-'符号 grp_names = df.columns.str.replace(r'[+-]', '', regex=True)  # 步骤3: 按统一列名进行分组求和 # 在列方向（axis=1）上进行分组求和，sort=False保持原始列的相对顺序 output_df = df.groupby(grp_names, axis=1, sort=False).sum()  print("n最终规范化后的 DataFrame:") print(output_df)

结果验证

最终 output_df 的输出如下：

最终规范化后的 DataFrame:    RepID  Col01  Col02  Col03  Col04  Col05  Col06  Col07 0      1     -3      7      8     -6      8      4     -6 1      2     -2      3      1     -2      2      6      0 2      3      0      8     -5      3      9      2      0 3      4     -2      1     -1      8      7      9     -2 4      5     -2      7     -1     -9      0      2     -1

对比原始数据和期望结果，我们可以看到：

Col01：原始 +Col01 是 [5,1,9,3,0]，-Col01 经过处理后变为 [-8,-3,-9,-5,-2]。求和结果 [5+(-8), 1+(-3), 9+(-9), 3+(-5), 0+(-2)] 得到 [-3,-2,0,-2,-2]，与输出一致。
Col02：只有 +Col02，没有 -Col02。求和结果直接是 +Col02 的值，与输出一致。
Col07：只有 -Col07，经过处理后变为负值。求和结果直接是处理后的 -Col07 的值，与输出一致。

这表明我们的规范化处理方法是正确且有效的。

注意事项与总结

正则表达式的运用: df.columns.str.replace(r'[+-]’, ”, regex=True) 中使用 r'[+-]’ 是一个关键点，它能够匹配 + 或 – 字符，并将其替换为空字符串，从而实现列名的清理。
axis=1 的重要性: 在 df.groupby(grp_names, axis=1).sum() 中，axis=1 指示 Pandas 在列方向上进行分组和聚合操作，这与通常在行方向（axis=0）上分组是不同的。
处理缺失列: 这种方法能够优雅地处理只有 + 列或只有 – 列的情况。如果只有 +Col06，没有 -Col06，那么 Col06 的值就是 +Col06 的值；如果只有 -Col07，没有 +Col07，那么 Col07 的值就是 -Col07 乘以 -1 后的值。
sort=False: 在 groupby 操作中，sort=False 可以避免对分组键进行排序，从而在某些情况下保持输出列的原始相对顺序，但这并非总是必需的，取决于具体需求。

通过上述步骤，我们成功地将一个带有复杂命名规则的DataFrame转换成了一个结构清晰、数值规范化的DataFrame，为后续的数据分析和建模奠定了基础。这种方法灵活且高效，适用于处理类似的数据清理任务。

发表于：后端开发

近三天内

复制链接

Golang Docker容器网络调试与问题排查实践

Go语言中接口转换Panic的深度解析与链表数据提取实践

如何在Golang中使用Makefile自动化构建

php 常量怎么用_PHP常量（define/const）定义与使用方法

OKX v6.151.0安卓版下载官方正版欧易APP安全安装

规范化处理带符号列名的Pandas DataFrame

场景描述

准备示例数据

规范化处理步骤

步骤一：处理负号列的数值

步骤二：统一列名

步骤三：按统一列名进行分组求和

完整代码示例

结果验证

注意事项与总结

p5.js中类方法声明的语法修正与迁移指南

如何在VSCode中配置Python调试环境并设置断点

币圈免费看行情网站合集_十大免费加密货币行情平台推荐

CSS动画如何实现按钮旋转效果_transform rotate @keyframes控制

如何使用Golang实现备忘录模式_Golang备忘录模式状态保存与恢复

如何使用Golang实现迭代器模式_使用Iterator Pattern遍历集合

CSS打印样式不生效怎么办_media print方式加载打印专用CSS

VSCode中如何自定义集成终端的颜色主题和字体

c++如何链接外部库_c++静态库与动态库的使用

前端html怎么运行_前端html运行步骤【指南】