V2EX  ›  英汉词典
Enqueued related words: Stemming, Tokenization, Part-Of-Speech

Lemmatization

释义 Definition

词形还原(lemmatization):一种自然语言处理方法,把单词的不同屈折形式(如时态、复数、比较级等)归并为同一个词元/词条(lemma)。例如把 running 还原为 run,把 better 还原为 good。与 stemming(词干提取) 相比,lemmatization 通常更依赖词典与词性信息,结果更“像真正的词”。

发音 Pronunciation (IPA)

/ˌlɛmətaɪˈzeɪʃən/

例句 Examples

Lemmatization changes “cats” to “cat.”
词形还原会把“cats”变成“cat”。

In information retrieval, lemmatization can improve search results by matching different inflected forms to the same lemma, especially when part-of-speech tagging is accurate.
在信息检索中,词形还原可以通过把不同屈折形式匹配到同一词元来提升搜索效果,尤其在词性标注准确时更明显。

词源 Etymology

来自 lemma(词元/词条) + -ization(……化/过程)Lemma 源自希腊语 lēmma,本义有“取到的东西、前提/命题”的意思,后来在语言学中指词典中的基本形式;加上 -ization 构成“使其成为词元/进行词形还原的过程”。

相关词 Related Words

文学与著作 Literary Works

  • Speech and Language Processing — Daniel Jurafsky & James H. Martin(自然语言处理经典教材,讨论 lemmatization 与形态学分析)
  • Introduction to Information Retrieval — Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze(信息检索中关于词形归一化/lemmatization 的应用)
  • Natural Language Processing with Python — Steven Bird, Ewan Klein & Edward Loper(Python/NLTK 语境下介绍 lemmatization 的实践)
  • Foundations of Statistical Natural Language Processing — Christopher D. Manning & Hinrich Schütze(统计 NLP 框架下涉及词形规范化与相关处理)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   837 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 20:10 · PVG 04:10 · LAX 12:10 · JFK 15:10
♥ Do have faith in what you're doing.