Python 自然语言分析如何提取特定关键词？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2834 天前的主题，其中的信息可能已经有所发展或是发生改变。

V 友们，给一篇文章，里面会出现一些公司的名字，前提是我不知道有哪些公司，请问如何将这些公司的名字提取出来

提取

Python

名字

公司

18 条回复 • 2017-09-30 23:25:14 +08:00

binux

2017-03-18 16:03:51 +08:00 via Android

公司名是全称还是简称
实体识别

maiganne

2017-03-18 16:08:04 +08:00

@binux 全称简称都没关系，只要能提取出来就行，能稍微说的详细点吗？谢谢

oisc

2017-03-18 16:12:38 +08:00

@maiganne NER 是一个自然语言处理的一个比较大的方向，怎么给你说详细一点。

binux

2017-03-18 16:14:08 +08:00 via Android

@maiganne 我问你文本中出现的是全称还是简称

maiganne

2017-03-18 16:22:47 +08:00

@binux 哦，全称，有什么 python 库可以实现吗

binux

2017-03-18 16:24:35 +08:00 via Android

@maiganne 全称分词，再自己写个规则就行了

maiganne

2017-03-18 16:26:40 +08:00

@binux 嗯，谢谢

ijustdo

2017-03-18 16:51:37 +08:00

中文处理里面有个实体识别就是代词性的分词然后找到那些为机构名词

ijustdo

2017-03-18 16:59:42 +08:00

INFO 2017-03-18 16:58:52,236] intxt: 有一个叫一腿有限公司的是个好公司
INFO 2017-03-18 16:58:52,236] 1:有 /v[-1:HED] 2:一个 /m[7:SBV] 3:叫 /v[7:SBV] 4:一 /m[4:ATT] 5:腿 /n[5:ATT] 6:有限公司 /n[2:VOB] 7:的 /u[2:RAD] 8:是 /v[0:COO] 9:个 /q[10:ATT] 10:好 /a[10:ATT] 11:公司 /n[7:VOB]
INFO 2017-03-18 16:58:52,236] A1(3, 5): 一腿有限公司
INFO 2017-03-18 16:58:52,236] A0(1, 1): 一个
INFO 2017-03-18 16:58:52,236] A0(6, 6): 的
INFO 2017-03-18 16:58:52,236] A1(8, 10): 个好公司
INFO 2017-03-18 16:58:52,236] ------------------------------------------------------------

看到没有一腿有限公司成功识别当然这个公司是不存在的呵呵

maiganne

2017-03-18 17:26:38 +08:00

@ijustdo 太好了，怎么实现的

ijustdo

2017-03-18 17:32:03 +08:00

实体识别找这个相关的库我用的哈工大的库

ijustdo

2017-03-18 17:33:23 +08:00

百度的自然语言接口也提供免费的文本相关的接口每天有次数限制

ijustdo

2017-03-18 17:38:48 +08:00

北大的中文有个撒实验室也出类似的其实就是带词性的分词然后再处理 python jieba 分词也带词性分词

最简单的你可以先用 jieba 试试找名词和机构名词我要是没记错 jieba 也带新词发现。。。

maiganne

2017-03-18 17:47:38 +08:00

@ijustdo 非常感谢

maiganne

2017-03-18 18:14:50 +08:00

@ijustdo 你用的哈工大的库是什么，能在 python 中使用吗？我也想试试

bxb100

2017-03-18 19:56:25 +08:00 via Android

清华也有个分词的包

ijustdo

2017-03-18 22:13:19 +08:00

哈工大 ltp

kunjinkao

2017-09-30 23:25:14 +08:00

找些语料训练个 crf，抽取一下就 ok 了