1
binux 2017-03-18 16:03:51 +08:00 via Android
公司名是全称还是简称
实体识别 |
8
ijustdo 2017-03-18 16:51:37 +08:00
中文处理里面有个 实体识别 就是代词性的分词 然后找到那些 为 机构名词
|
9
ijustdo 2017-03-18 16:59:42 +08:00
INFO 2017-03-18 16:58:52,236] intxt: 有一个叫一腿有限公司的是个好公司
INFO 2017-03-18 16:58:52,236] 1:有 /v[-1:HED] 2:一个 /m[7:SBV] 3:叫 /v[7:SBV] 4:一 /m[4:ATT] 5:腿 /n[5:ATT] 6:有限公司 /n[2:VOB] 7:的 /u[2:RAD] 8:是 /v[0:COO] 9:个 /q[10:ATT] 10:好 /a[10:ATT] 11:公司 /n[7:VOB] INFO 2017-03-18 16:58:52,236] A1(3, 5): 一 腿 有限公司 INFO 2017-03-18 16:58:52,236] A0(1, 1): 一个 INFO 2017-03-18 16:58:52,236] A0(6, 6): 的 INFO 2017-03-18 16:58:52,236] A1(8, 10): 个 好 公司 INFO 2017-03-18 16:58:52,236] ------------------------------------------------------------ 看到没有 一腿有限公司 成功识别 当然这个公司是不存在的 呵呵 |
11
ijustdo 2017-03-18 17:32:03 +08:00
实体识别 找这个 相关的库 我用的哈工大的库
|
12
ijustdo 2017-03-18 17:33:23 +08:00
百度的自然语言接口也提供 免费的文本相关的接口 每天有次数限制
|
13
ijustdo 2017-03-18 17:38:48 +08:00
北大的中文有个撒实验室 也出类似的 其实 就是带 词性的分词 然后再处理 python jieba 分词也带词性分词
最简单的 你可以先用 jieba 试试 找名词 和机构名词 我要是没记错 jieba 也带新词发现 。。。 |
16
bxb100 2017-03-18 19:56:25 +08:00 via Android
清华也有个分词的包
|
17
ijustdo 2017-03-18 22:13:19 +08:00
哈工大 ltp
|
18
kunjinkao 2017-09-30 23:25:14 +08:00
找些语料训练个 crf,抽取一下就 ok 了
|