101
wangmou 2023-09-26 15:22:16 +08:00
@lscho 钱不够弄模型就只能堆数据,前几天同学他们给 xx 电力做的东西就是这么干的,把所有电站的名字全喂进去,也不用识别了
|
102
teddy2725 2023-09-26 15:41:25 +08:00
NER 任务的嘛,搞个开源模型搞点数据训练试试效果,弄个最好的交差把
类似这种: https://huggingface.co/dslim/bert-base-NER |
103
unco020511 2023-09-26 15:49:54 +08:00
这种问题 GPT 类的是最合适的,国内也有不少大模型可以使用
|
104
haxi 2023-09-26 16:11:51 +08:00
就连阿里,顺丰,这些大厂靠物流起家的,训练出来的 NLP 模型都无法准确识别的,就不要白费力气了,没有资金就随便用 jieba 训练一个模型用用,有资金和准确性要求就调阿里的 API
|
105
angry41 2023-09-26 16:30:26 +08:00 1
找实习大学牲
|
106
NoOneNoBody 2023-09-26 16:39:23 +08:00
如果有个地名数据库(粒度为小区或街),识别难度不大(一般文字匹配算法即可),难在数据库会变,维护不易
如果没有数据库,纯语义识别,那就离不开 AI 了 中文地址还好,从大到小,英文地址从小到大更难搞 |
107
eddiechow 2023-09-26 18:01:42 +08:00 1
有么有可能跟领导沟通,从源头解决这个事情,按说完全不想人工介入维护的话,那就让工单系统推结构化的数据到数据中心,因为如果从纯文本里面去识别抓去这个信息,不管用什么算法,什么方案,识别率永远都到不了 100%,那必定存在需要人工审核的场景;当然,也能理解接政府项目有些时候限制是挺多的,如果还没有试过这种途径的话,要不试试看?祝项目顺利🙏
|
108
season8 2023-09-26 18:01:45 +08:00
@SZhan #94 你说的有道理,分词不是万能的,太依赖词库了,详细地点格式并不确定,尤其是涉及到英文和数字的时候,分词更不理想,我觉得可能还得上机器学习
|
109
maotao456 2023-09-26 18:30:45 +08:00
巧了,我也做了一个类似需求。 从小票里面提取出店铺名称、商品、金额、收件人等信息
一开始的思路是,OCR -> 正则匹配 可是后来发现每家店的小票格式都不同,难以预料未来还有什么格式。 代码没法写。 然后,刚好文心一言 Api 可以用了。 那就 OCR -> 文心一言。 搞定下班 |
110
SZhan OP @eddiechow 感谢暖心的回复 对的,最好的方式一定是在源头,这个问题也一直在跟客户提,让他们去协调的。可能是数据提供方并不够重视吧,然后客户就以时间紧的理由再丢给我们,让机器去自动识别😰如您所期,会顺利的,谢谢!
|
111
aigonna 2023-09-26 20:15:41 +08:00 via iPhone
用 uie ,github 搜一下就好了。 你的文本其实很规则,抽取的是地址小区街道这种,自己标个几百条数据。训练下 uie ,如果没 gpu 就用 uie tiny 。
|
112
skiy 2023-09-26 20:20:04 +08:00
|
113
zcfnc 2023-09-27 00:01:20 +08:00
几年之前做过一个和楼主基本 90%相似的需求,不过是用 nlp 的方式实现的,楼主要是还没找到解决方法我可以找找之前的方案
|