V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
luffy
V2EX  ›  程序员

对文章进行自动分类的算法

  •  
  •   luffy · 2022-06-30 15:18:02 +08:00 · 1199 次点击
    这是一个创建于 878 天前的主题,其中的信息可能已经有所发展或是发生改变。

    先说下背景: 比较小的数据量,文章结构比较简单,假设就只有 title, content 两个字段。

    这方面有比较好用,简单的的库推荐嘛?

    可以是普通推荐算法,也可以是机器学习相关。

    主要以简单,好使为目的。

    6 条回复    2022-06-30 17:43:23 +08:00
    czfy
        1
    czfy  
       2022-06-30 15:47:52 +08:00 via Android
    数据量小是多小
    LeeReamond
        2
    LeeReamond  
       2022-06-30 16:34:18 +08:00
    无标签分类可能比较困难,如果你要摘要文章信息为几个 tag 的话倒是无数方案,比如据说 v 站用的是 tfidf 。你要无标签自动聚类的话,可以想到一些可能的应用场景,比如我的网页收藏夹里东西太多了,自动帮忙把技术类和非技术类分开。不过目前似乎没怎么看到人做类似的产品,所以也许是技术上有些困难,难以取得好效果
    luffy
        3
    luffy  
    OP
       2022-06-30 17:11:29 +08:00
    @czfy 导出成 sql 文件,会在 500 mb 以内
    colatea
        4
    colatea  
       2022-06-30 17:11:50 +08:00
    https://github.com/gezimonkey/Keras_Multi_Label_TextClassfication
    我搞的,算法,工具都是别人的,我只是拿来装在一起,你可以试试
    tfdetang
        5
    tfdetang  
       2022-06-30 17:18:27 +08:00
    不知道分类了以后要做什么? 可以看看 LDA 主题模型吧。
    czfy
        6
    czfy  
       2022-06-30 17:43:23 +08:00 via Android
    500M 感觉不少了,我目前只找到两个老库 op 先看看吧,按道理如果能用 BERT 效果会更好

    https://github.com/isnowfy/snownlp
    https://github.com/hankcs/pyhanlp
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   871 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:59 · PVG 04:59 · LAX 12:59 · JFK 15:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.