如何基于首次出现的下划线分割 Pandas 列

13次阅读

使用 `str.extract()` 配合正则表达式可精准按第一个下划线将字符串列拆分为两部分，避免 `str.split()` 产生的嵌套列表或多余下划线干扰。

在 pandas 中，若需将一列字符串（如 ‘Male_85__and_over’）仅按第一个下划线 _ 拆分为两个字段（gender 和 age），直接使用 str.split(‘_’, n=1) 虽然能限制分割次数，但其返回结果为列表（如 [‘Male’, ’85__and_over’]），后续需额外处理（如 .str[1]）才能提取第二部分；而若误用 .str[1:]（如原代码所示），会得到包含方括号的列表对象 [’85__and_over’]，导致数据类型错误和显示异常。

✅ 正确做法是使用 str.extract() 方法，配合捕获组正则表达式：

test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_([^_]+)')

([^_]+)：匹配一个或多个非下划线字符（即首个 _ 前的内容，如 ‘Male’）；
_：字面量下划线，作为分隔符；
([^_]+)：匹配首个 _ 后、下一个 _ 之前的所有非下划线字符（即 ’85’）——⚠️注意：此正则仅适用于“首个 _ 后紧接着无 _”的场景。

但原始示例中值为 ‘Male_85__and_over’，其首个 _ 后实际是 ’85__and_over’（含多个 _）。若目标是提取 第一个 _ 后的全部剩余内容（而非截止到第二个 _），应改用更鲁棒的正则：

test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'^([^_]+)_(.*)$')

^([^_]+)：行首开始，捕获首个 _ 前所有非 _ 字符；
_：匹配第一个字面量 _；
(.*)：捕获其后任意字符（包括 _）直到行尾；
$：确保匹配到结尾，提升准确性。

? 补充说明：

若某行不含 _，对应位置将返回 NaN，建议提前检查：test[“column_Name_pivoted”].str.contains(‘_’).all()；
str.extract() 返回 DataFrame，可直接赋值给多列，语法简洁且类型安全；
相比 str.split().str[0/1]，extract 更具可读性与健壮性，尤其适合结构化文本解析。

综上，推荐统一使用带锚点的正则 r’^([^_]+)_(.*)$’，兼顾准确性、可维护性与边界兼容性。

发表于：php框架

2026-01-17

# ai # pandas # 字符串 # 对象 # 数据类型 # 正则表达式

复制链接

HTML5框架如何禁用右键菜单_contextmenu事件阻止技巧【指南】

如何高效合并两个有序文本文件并自动去重（基于行内容，保留时序）

如何解决网页中后续区块始终覆盖首区块的布局问题

php5和php7作用域操作符有区别吗_版本差异对静态调用影响【对比】

c++中如何判断字符串是否为合法的JSON格式_c++正则简单检查方法【详解】

如何基于首次出现的下划线分割 Pandas 列

sublime如何安装JQuery代码块插件_sublime编写JS代码增强【指南】

2026币安官方APP下载地址币安Binance安卓最新v4.3.0版本安装包

为什么javascript在web开发中不可或缺？_掌握javascript的核心概念【教程】

VSCode书签插件：在庞大代码库中快速跳转

mysql中使用前缀索引与性能优化技巧

Composer怎么安装Symfony组件_使用Composer灵活拆分组件【实战】

如何使用事件委托为多个输入元素统一绑定 input 事件监听器

如何购买狗狗币（DOGE）币：2026年是否仍然值得投资？新手指南

SQL 如何用索引视图（Indexed View）加速聚合查询

Composer如何同步本地与远程依赖_Composer更新策略详解【经验】