1
alsotang 2012-01-04 22:10:36 +08:00
|
2
reus 2012-01-04 22:48:15 +08:00
|
3
kafka0102 2012-01-04 22:59:34 +08:00
关键字抽取的最简单思路就是计算词频(如果有语料,可以拿到idf算tf*idf),取top k的结果。但是使用的词不能是所有的词,所以需要做些处理。这个处理也就两种思路,一个是人工构造候选的主题词表(可以通过语料筛选出来),或者通过辅助程序剔除掉无意义的词。不过,要想得到更好效果,比如歧义词的处理、上下文无关的词的处理、出现频率不高但更能表现主题的词提取、主题词的粒度调整,就不是计算词频能搞定的了。只就统计词频来说,其实也用不上什么库,我也没有看到专门这样的库。
|