或者有什么好的获取敏感词的方法,想了个爬取海量评论做语义初筛再标注,但感觉不太优雅,不知道 v 友们有没有更好的想法带来点启发
1
Hayashikawa 164 天前
|
2
freshgoose 164 天前
github 上有人收集了很多
|
3
shiluanzzz 164 天前
p 主没明确说敏感词是哪些 zz ?还是通用的
https://platform.openai.com/docs/guides/moderation/overview openai 的这个过滤的 api 可以试试? |
4
vivisidea 164 天前
现在已经不流行用敏感词了,直接上 NLP 模型分类,bert 啥的
|
5
user23125 164 天前
国新办清查词单?
|
6
qviqvi 164 天前
最好国家出一个标准,不然不好处理
|
7
wangjh0802 164 天前
@qviqvi 这东西还能有标准? 哈哈哈哈哈哈哈哈哈
|
10
azarasi 163 天前
什么是敏感词本身就是敏感的
|
11
ray2023 163 天前
https://github.com/cjh0613/tencent-sensitive-words, 之前有个项目用的这个, 但是还是需要自己去维护一下, 因为有些词并不符合自己的规则
|
12
Bumon OP @shiluanzzz 政治类的能很容易得到,但歧视类等比较容易模糊词意但又会有的就有点难获取到,谢谢你的链接
@Hayashikawa 这种算是第三方服务了,我这边有需求是自己维护一份来着 @freshgoose yesyes ,有在交友网找到一些公开的词库,在 v 发帖也是想看看有没有更丰富的源 @vivisidea 哥们说的这个也有在做,但就,还是需要维护一份词库 hhh @qviqvi 国家确实也有标准,但是标准只有分类没有内容,具体内容还得自己维护 @ray2023 谢谢老哥的分享 谢谢各位 v 友的分享! |