词形还原(lemmatization):一种自然语言处理方法,把单词的不同屈折形式(如时态、复数、比较级等)归并为同一个词元/词条(lemma)。例如把 running 还原为 run,把 better 还原为 good。与 stemming(词干提取) 相比,lemmatization 通常更依赖词典与词性信息,结果更“像真正的词”。
/ˌlɛmətaɪˈzeɪʃən/
Lemmatization changes “cats” to “cat.”
词形还原会把“cats”变成“cat”。
In information retrieval, lemmatization can improve search results by matching different inflected forms to the same lemma, especially when part-of-speech tagging is accurate.
在信息检索中,词形还原可以通过把不同屈折形式匹配到同一词元来提升搜索效果,尤其在词性标注准确时更明显。
来自 lemma(词元/词条) + -ization(……化/过程)。Lemma 源自希腊语 lēmma,本义有“取到的东西、前提/命题”的意思,后来在语言学中指词典中的基本形式;加上 -ization 构成“使其成为词元/进行词形还原的过程”。