Python 文本规范化与业务需求结合

2次阅读

str.strip() 不能处理业务“脏空格”（如u200b、u3000、xa0），因其默认仅识别ASCII空白符；需用正则re.sub(r'[su200bu3000xa0]+’, ‘ ‘, text).strip()统一归一再裁边。

Python 文本规范化与业务需求结合

为什么 `str.strip()` 不能处理业务里的“脏空格”

因为业务文本里混着 u200b（零宽空格）、u3000（全角空格）、xa0（不间断空格）——这些都不在 str.strip() 默认字符集里，调用后纹丝不动。

实操建议：

立即学习“Python免费学习笔记（深入）”；

先用 repr(text) 看真实字节，别靠肉眼判断“看起来是空格”
统一清理推荐用正则：re.sub(r'[su200bu3000xa0]+', ' ', text).strip()，把杂七杂八空白归为一个半角空格再裁边
如果字段要进数据库或做等值匹配，建议额外加 .replace(' ', '') == '' 判断是否真为空，别只信 not text.strip()

中文标点替换该用 `str.translate()` 还是 `re.sub()`

str.translate() 更快、更可控，尤其适合一对一映射（如把 ， 全替成 ,），但不支持模糊匹配或上下文条件；re.sub() 灵活，能写 r'(? 这种带边界的规则，但性能差一截，且容易写错边界。

实操建议：

立即学习“Python免费学习笔记（深入）”；

纯符号批量替换：建 table = str.maketrans('，。！？；：“”‘’（）【】《》', ',.!?;:""''()[]')，然后 text.translate(table)
需要保留某些上下文（比如数字后的顿号不替换）：必须用 re.sub()，但先 re.compile() 缓存 pattern，别每次临时编译
注意 translate() 对 Unicode 组合字符（如带声调的拼音）可能误伤，测试时多塞几个生僻字

业务字段“规范化”要不要动原始编码

不要。原始文本的 encoding 是事实，强行 decode/encode 容易引入 UnicodeDecodeError 或静默乱码（比如把 b'xe4xbdxa0xe5xa5xbd' 当 latin-1 解再 encode 回 utf-8，就变 ä½ å¥½）。

实操建议：

立即学习“Python免费学习笔记（深入）”；

拿到 bytes 就先 try: text = raw_bytes.decode('utf-8') except UnicodeDecodeError: text = raw_bytes.decode('utf-8', errors='replace')，别猜编码
所有后续操作（去空格、替换标点）都在 str 层做，别反复 encode/decode
如果字段要落库，确认数据库连接层已设 charset=utf8mb4，而不是靠 python 层“补救”

`unicodedata.normalize()` 在什么场景下真有用

只在涉及大小写折叠、重音符号、兼容汉字（如「個」vs「个」）或搜索/排序一致性时才需要。普通表单清洗、日志去噪、ID 标准化几乎用不到，硬加上反而拖慢速度、引入不可见字符。

实操建议：

立即学习“Python免费学习笔记（深入）”；

搜素关键词标准化：用 unicodedata.normalize('NFKC', keyword)，它能把全角数字、罗马数字、上标 ² 归一为常规字符
用户昵称展示：别 normalize，否则「café」变「cafe」，丢了原意
注意 NFKD 会把「ﬃ」拆成「ffi」，某些 ocr 输出或旧系统导出数据才需这种激进拆分

真正难的是理清业务语义：这个字段是给人看、给机器比对、还是进搜索引擎？同一段文本在不同环节的“规范”目标可能完全相反。别写一套通用清洗函数包打天下。

发表于：php框架

近一天内

复制链接

Python 异常在多线程中如何传播？

php如何判断变量是数字类型_php数字类型判断逻辑【方法】

Python单元测试入门教程_unittest基础使用

Laravel中如何使用定时任务_Laravel任务调度Task Scheduling配置方法【深入】

Python aiofiles 的正确打开关闭方式

Python 文本规范化与业务需求结合

为什么 `str.strip()` 不能处理业务里的“脏空格”

中文标点替换该用 `str.translate()` 还是 `re.sub()`

业务字段“规范化”要不要动原始编码

`unicodedata.normalize()` 在什么场景下真有用

mysql如何使用mysqldump备份数据库_mysql工具使用教程

CSS颜色十六进制带透明度写法_探索#RRGGBBAA新语法

如何解决Laravel Eloquent的N+1查询问题？ (with和load方法详解)

如何将html代码转成图片不显示不出来

javascript如何获取地理位置_navigator对象如何使用【教程】

PHP怎样获取栏目过期时间_PHP取栏目过期法【时效】

php怎么实现图片懒加载_php后端配合前端延迟加载策略【性能】

HTML怎么创建用户积分排行榜_HTML points leaderboard教程【激励】

PHP分页怎么用RESTful API_PHP分页API设计指南【教程】

Laravel怎么配置多语言路由_Laravel国际化URL教程【适配】

Python 文本规范化与业务需求结合

为什么 str.strip() 不能处理业务里的“脏空格”

中文标点替换该用 str.translate() 还是 re.sub()

业务字段“规范化”要不要动原始编码

unicodedata.normalize() 在什么场景下真有用

为什么 `str.strip()` 不能处理业务里的“脏空格”

中文标点替换该用 `str.translate()` 还是 `re.sub()`

`unicodedata.normalize()` 在什么场景下真有用