如何正确实现英文单词去后缀“ness”并处理“i→y”变形的词干提取

1次阅读

本文介绍在去除英文单词后缀“ness”时，如何正确处理如“heaviness→heavy”这类需将末尾“i”替换为“y”的拼写规则，并提供手动实现与专业词干提取库两种可靠方案。

在自然语言处理中，简单地截掉后缀（如 -ness）远不足以完成准确的词干提取（stemming）。以 heaviness 为例：直接移除末4字符得到 heavi，但英语正字法规则要求将词根末尾的 i 在加 -ness 前变为 y（即 heavy + ness → heaviness），因此还原时必须反向执行 i → y 变形。原代码存在多个逻辑错误：

without_ness[:-5] 索引越界（若 without_ness 长度不足5会报错）；
list(word) 转为字符列表后，without_ness 是列表而非字符串，无法调用 .replace()；
判断条件应检查倒数第一个字符是否为 ‘i’，而非错误索引 [:-5]；
缺少对 ‘i’ 出现在非末尾位置的容错（如 business 不应变为 bussyness → bussy）。

✅ 正确的手动实现应如下（仅适用于基础场景）：

def remove_suffix_ness(word):     if not word.endswith("ness"):         return word     stem = word[:-4]  # 移除 "ness"     # 仅当 stem 以 'i' 结尾且长度 ≥ 2 时，替换为 'y'     if len(stem) >= 2 and stem.endswith("i"):         stem = stem[:-1] + "y"     return stem  # 测试 print(remove_suffix_ness("sadness"))     # → "sad" print(remove_suffix_ness("heaviness"))   # → "heavy" print(remove_suffix_ness("happiness"))   # → "happy" print(remove_suffix_ness("business"))    # → "business"（不误改）

⚠️ 注意：该函数仍无法覆盖所有英语变形规则（如 darkness→dark、loneliness→lonely 中的元音重复、辅音双写等），且未处理大小写、标点或不规则词。

? 生产环境强烈推荐使用成熟nlp库，例如 NLTK 的 Lancaster 或 Porter 词干器，它们经过大量语料验证，能稳健处理边缘案例：

import nltk # 首次运行需下载数据（取消注释并执行一次） # nltk.download('wordnet')  from nltk.stem import PorterStemmer, LancasterStemmer  porter = PorterStemmer() lancaster = LancasterStemmer()  print(porter.stem("heaviness"))    # → "heavi"（Porter 较保守） print(lancaster.stem("heaviness")) # → "heavy"（更激进，符合需求） print(lancaster.stem("happiness")) # → "happy" print(lancaster.stem("sadness"))   # → "sad"

? 总结：

手动实现适合教学或极简场景，但务必校验边界（长度、结尾字符、语义合理性）；
工业级应用请优先选用 nltk.stem.LancasterStemmer 或更现代的 SnowballStemmer(‘english’)；
若需语义精准还原（如 better→good），应升级至词形还原（lemmatization），使用 WordNetLemmatizer 并指定词性。

发表于：web3.0

近两天内

# app # go # nlp # word # 字符串 # 自然语言处理

复制链接

ROND币是什么？ROND特点、未来前景及潜力

火币APP下载_Huobi交易所最新版安装与注册流程

币安Binance交易所手机版下载币安官方APP安卓最新安装入口

币安Alpha代币的反向订单是什么？如何下币安Alpha反向订单？

如何使用Selenium精准定位并获取页面中动态用户名文本

如何正确实现英文单词去后缀“ness”并处理“i→y”变形的词干提取

javascript如何操作浏览器历史记录_怎样实现路由功能

c# 伪共享（False Sharing）的检测和避免方法

bytearray vs bytes 的可变性导致的常见内存拷贝陷阱

怎么用mysql实现用户权限控制_mysql项目安全设计

html怎样插入页码转pdf_插页码html转pdf法【要点】

如何调用用户输入函数_PHP输入过滤函数调用说明】

PHP7和PHP8框架扩展支持有啥变_版本差异扩展兼容汇总【汇总】

C#文件内容去重 C#如何高效处理大文本文件并去除重复行

XML上传接口的返回格式设计成功的JSON响应结构

如何在虚拟机中快速完成MySQL环境搭建虚拟机数据库环境搭建与网络互通配置