使用正则表达式将字符串中连续重复的竖线字符（|）压缩为单个竖线

14次阅读

本文介绍如何在 pandas 中使用正则表达式高效地将字段内连续出现的多个竖线 `|` 替换为单个竖线，解决分隔符冗余问题。

在数据清洗过程中，常遇到因格式异常或拼接错误导致的重复分隔符问题，例如字符串 ’10SGD01AA103||||||10SGD01AA105′ 中存在多个连续竖线 |。目标是将其规范化为 ’10SGD01AA103|10SGD01AA105′ ——即把两个及以上连续的 | 替换为单个 |。

正确做法是使用 str.replace() 配合正则表达式 r’|+’：

import pandas as pd  df = pd.DataFrame({'code': ['10SGD01AA103||||||10SGD01AA105||||||10SGD01AA111']}) df['code'] = df['code'].str.replace(r'|+', '|', Regex=True) print(df['code'].iloc[0]) # 输出：10SGD01AA103|10SGD01AA105|10SGD01AA111

✅ 关键说明：

r’|+’ 是原始字符串（raw String），其中 | 表示字面量竖线（因 | 在正则中是特殊元字符，必须转义），+ 表示“一个或多个连续匹配”；
第三个参数 regex=True（Pandas 1.3+ 默认为 True，但显式声明更稳妥）确保启用正则引擎；
替换目标为普通字符 ‘ | ‘，无需转义。

⚠️ 常见错误分析：

‘|(?=|1+)’ 和 ‘|(?=|)’ 语法不合法：(?=…) 是正向先行断言，但 | 在其中未转义且逻辑混乱，1 引用未定义的捕获组，会导致 re.Error 或无效果；
直接写 ‘|+’ 不加转义 → 被解释为“空字符串或空字符串”，即逻辑或，完全失效；
忘记 regex=True（旧版 Pandas 默认 False）→ 触发普通字符串替换，’|+’ 被当作字面量查找，无法匹配。

? 扩展提示：若需同时处理首尾冗余分隔符，可链式调用：

df['code'] = (df['code']               .str.replace(r'|+', '|', regex=True)               .str.strip('|'))  # 去除开头和结尾的 |

该方法简洁、高效，适用于大规模 DataFrame 的批量清洗，是正则处理重复分隔符的标准实践。

发表于：后端开发

2026-01-11

复制链接

将Node.js的MD5认证逻辑移植到Go语言

为什么PHP调用图像处理函数无效_PHP图像处理函数无效问题排查与GD/Imagick教程

php怎么找最大值和最小数组_php数组最值查找技巧【步骤】

如何在Golang中使用defer语句_实现延迟执行和资源释放

优化你的VSCode启动速度：插件加载策略与技巧

使用正则表达式将字符串中连续重复的竖线字符（|）压缩为单个竖线

mysql迁移到新服务器是否需要调整配置_mysql环境调整说明

C++如何使用GDB进行调试？（常用命令教程）

html5可视化编辑怎么调组件对齐_html5可视化对齐设置技巧【技巧】

如何在vscode中编写Markdown文件并导出文档【教程】

如何在 PyTorch 多头模型中精准控制梯度流（停止特定路径的反向传播）

Composer怎么在Ubuntu上配置全域变量_Linux安装Composer详细过程【介绍】

Django 模板中动态访问嵌套列表元素的正确方法

Go语言中map的性能特性与时间复杂度分析

如何在切换新闻分类时重置当前卡片索引为 0

HTML5如何实现多段滚动文字_嵌套多层容器分离内容【详解】