Pandas 实战：根据字符串末尾标点符号智能复制行

1次阅读

本文介绍如何使用 pandas 高效识别并复制以问号、句号或感叹号结尾的 DataFrame 行，同时生成去除末尾标点的新行，实现数据增强与规范化处理。

本文介绍如何使用 pandes 高效识别并复制以问号、句号或感叹号结尾的 dataframe 行，同时生成去除末尾标点的新行，实现数据增强与规范化处理。

在自然语言处理（nlp）或文本清洗任务中，常需对带标点的句子进行标准化处理——例如，保留原始带标点的样本用于分类建模，同时补充无标点变体以提升模型鲁棒性。Pandas 提供了简洁高效的向量化操作，无需循环即可完成此类“条件复制 + 字符串变换”任务。

核心思路分为三步：

筛选目标行：定位 msg 列中以 ?、. 或 ! 结尾的记录；
构造新行：对这些行的 msg 值截去最后一个字符（即标点），其余列保持不变；
合并结果：将原始 DataFrame 与新增行垂直拼接（pd.concat），保留原始顺序与索引结构（可选重置索引）。

以下是完整可运行代码示例：

import pandas as pd  # 构造示例数据 df = pd.DataFrame({     'msg': ["hello", "hi!", "What's up?", "Nice.", "No punctuation here"],     'label': [1, 0, 2, 0, 3] })  # 步骤1：筛选以 ?, ., ! 结尾的行（注意：str.endswith 接受元组） mask = df['msg'].str.endswith(('.', '?', '!')) punc_rows = df[mask].copy()  # 使用 copy() 避免 SettingWithCopyWarning  # 步骤2：移除末尾标点（安全方式：仅当长度 ≥1 时切片） punc_rows['msg'] = punc_rows['msg'].str.rstrip('?.!')  # 更健壮：rstrip 处理连续标点 # 或严格按末字符移除（如题目要求）：punc_rows['msg'] = punc_rows['msg'].str[:-1]  # 步骤3：合并原始数据与新增行 result = pd.concat([df, punc_rows], ignore_index=True)  print(result)

输出结果：

msg  label 0              hello      1 1                hi!      0 2        What's up?      2 3            Nice.      0 4  No punctuation here      3 5                 hi      0 6        What's up      2 7             Nice      0

✅ 关键注意事项：

str.endswith((‘?’, ‘.’, ‘!’)) 必须传入元组而非字符串，否则会报错或逻辑错误；
使用 .copy() 防止链式赋值警告（SettingWithCopyWarning）；
若字符串可能含多个尾部标点（如 “Wow!!!”），推荐用 str.rstrip(‘?.!’) 替代 str[:-1]，更符合实际清洗需求；
pd.concat(…, ignore_index=True) 可重置索引，避免重复索引影响后续操作；
如需去重或排序，可在最后调用 result.drop_duplicates().sort_values(…)。

该方法时间复杂度为 O(n)，完全向量化，适用于百万级文本行的批量处理，是 Pandas 文本预处理中的典型高效实践。

发表于：php框架

近一天内

复制链接

php调用听书插件怎样实现倍速播放_php听书插件倍速播放设置法【调速】

php8.4属性钩子是什么_php8.4属性访问拦截用法【说明】

检测用户代理字符串变化的 JavaScript 实现方法

Linux下用grep命令怎么搜索XML文件内容

如何在患者查询结果中显示医院/中心名称而非ID

Pandas 实战：根据字符串末尾标点符号智能复制行

Go 语言中获取系统信息的完整实践指南（基于 gopsutil）

c语言中和哪个优先级高_逻辑与&&、逻辑或||及比较运算符优先级比较

html空格符号怎么打_用键盘直接敲空格在html有效吗【验证】

mysql安装完成后如何配置权限_mysql安全管理设置

Laravel 中实现多仓库权限与库存批次（LOT）管理的完整方案

Linux shell 管道组合优化技巧

Laravel怎么实现WebSocket聊天_Laravel集成Pusher实现实时通讯【实战】

Python 消息幂等消费的防重表设计

css 为什么行内样式最难维护_通过样式分散问题分析原因

Laravel怎么解决数据冲突_Laravel乐观锁与悲观锁应用场景【原理】