1
neosfung 2017-11-09 08:52:59 +08:00 via iPhone 1
Tfidf
|
2
mpich 2017-11-09 08:53:42 +08:00 1
tfidf textrank 都是不错的 baseline
|
3
l00t 2017-11-09 08:56:06 +08:00
你的思路就是 TFIDF。我觉得就单篇文章而言,还是 textrank 的效果好些。TFIDF 太机械了。
|
4
y051313 2017-11-09 09:05:28 +08:00
scws 可以提取关键词
|
5
tedcon 2017-11-09 09:51:29 +08:00
这个常规做法不应该先分词, 去除停顿词,然后根据词性来获取预选词,在预选词里面统计频率最高的为关键词
|
6
Ginson 2017-11-09 09:56:46 +08:00 1
![核心词提取]( )
是否符合预期? |
7
tianxiacangshen OP @Ginson 应该比特币作为一个关键字,最核心的应该是比特币这个关键字
|
8
Ginson 2017-11-09 10:05:34 +08:00
@tianxiacangshen 语料库的问题,jieba 自带的语料库没有把“比特币”作为一个单词来看待,要手动弄一下。
|
9
princelai 2017-11-09 10:25:21 +08:00
自定义词库的效果
jieba.analyse.textrank(s,topK=10) Out[10]: ['升级', '交易', '提升', '社区', '共识', '货币', '希望', '开发人员', '手续费', '旨在'] jieba.analyse.tfidf(s,topK=10) Out[11]: ['比特币', '升级', '共识', '手续费', 'SegW', '2x', '定于', '11', '16', '生效'] |
10
EricJia 2017-11-09 10:42:03 +08:00
pagerank
|
11
gyorou 2017-11-09 10:47:03 +08:00
别提了,特么 segwit2x 都无限延期了。
|
12
tianxiacangshen OP @princelai 显然第二种比较好
|
13
princelai 2017-11-09 11:27:56 +08:00
@tianxiacangshen 那是因为我有自己的 stopword 和 userdict,而且我训练的 tfidf 权重文件正好也是金融类相关的,只是有点小,如果再加上 wikipedia 的语料库应该会有更好的效果
|