“corpus-driven” 指“以语料库为驱动的;由大规模真实语言数据(语料库)主导的方法”。常用于语言学与自然语言处理领域,强调结论主要从数据中归纳出来,而不是先有理论/规则再去验证。(另有相近术语 corpus-based,通常更偏“用语料库来检验既有假设”。)
/ˈkɔːrpəs ˌdrɪvən/
A corpus-driven study can reveal patterns you might miss.
语料库驱动的研究能揭示你可能忽略的语言模式。
Using a corpus-driven approach, the researchers identified recurring collocations and revised the dictionary entries to reflect authentic usage across genres.
研究者采用语料库驱动的方法,找出反复出现的搭配,并据此修订词典条目,使之更贴近不同体裁中的真实用法。
由 corpus(“语料库;文集”,源自拉丁语 corpus “身体、整体”)+ driven(“驱动的、推动的”)构成的复合形容词。其核心隐喻是“让数据来驱动发现”,在20世纪末语料库语言学兴起后广泛用于方法论表述。