• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kyrre
V2EX  ›  程序员

有没有好用的打标签库?能带有点自然语言处理的最好

  •  
  •   kyrre · Apr 19, 2016 · 3666 views
    This topic created in 3699 days ago, the information mentioned may be changed or developed.

    最近在做个图书分类的系统,需要对每本书根据书名分类,打标签。 有啥好用的库可以推荐吗?

    19 replies    2016-04-19 10:22:05 +08:00
    binux
        1
    binux  
       Apr 19, 2016
    作为人类,你做得到「对每本书根据书名分类,打标签」吗?
    kyrre
        2
    kyrre  
    OP
       Apr 19, 2016
    @binux 在自己的知识范围内基本上都可以吧。再说这个系统肯定也是逐步完善的。
    我找了个朴素贝叶斯算法的库,不怎么好用,不能一次得出多个分类/标签。
    binux
        3
    binux  
       Apr 19, 2016
    @kyrre 那我问你一本书,《大教堂与集市》是什么类别的?
    murmur
        4
    murmur  
       Apr 19, 2016   ❤️ 1
    根据书名分类?我认为做不到,因为信息是在太少了,分词都分不出来,何况还有标题党
    比如轮回的拉格朗日 讲什么的 数学?
    BGLL
        5
    BGLL  
       Apr 19, 2016
    只能根据书名扒豆瓣和亚马逊,
    kyrre
        6
    kyrre  
    OP
       Apr 19, 2016
    我觉得这个虽说做不到 100%准确,大致准确就可以了。而且我一开始是针对计算机类书籍,所以应该难度不大。
    比如《 Spring MVC Cookbook 》我只要能认出 Spring 就 ok ,能分类出 web 就超出期望了。
    大部分计算机书应该只属于 1 到 2 类,所以只要能给一本书打上 2 个标签就已经完全可用了。
    kyrre
        7
    kyrre  
    OP
       Apr 19, 2016
    @binux 这本书我准备打上 其他 这个标签。 233333
    gamexg
        8
    gamexg  
       Apr 19, 2016   ❤️ 1
    leemail
        9
    leemail  
       Apr 19, 2016
    isbn 有了还需要自己分类吗?
    knightdf
        10
    knightdf  
       Apr 19, 2016   ❤️ 1
    NLP 处理标题?。。。。 LZ 也是想多了,起码得加上书的介绍内容吧,一个标题。。
    Dowding
        11
    Dowding  
       Apr 19, 2016   ❤️ 2
    禅与摩托车维修艺术
    kyrre
        12
    kyrre  
    OP
       Apr 19, 2016
    @gamexg 这个确实是一个好思路,但用爬虫来搞有点搞大了,不过没准豆瓣有 api 。
    @murmur, @knightdf 其实就是一个自己玩的项目,所以起点低也无所谓啦。
    youxiachai
        13
    youxiachai  
       Apr 19, 2016
    咦?做图书系统..不对接国际标准吗?....
    pimin
        14
    pimin  
       Apr 19, 2016 via Android
    感觉楼主在试图解决一个问题最不重要的部分。
    给一本书贴标签,把书拿过来,看一眼,从分类里选一个标签撕下来,贴上。
    我很难想象:把这本书对应的标签打印出来,拿着标签去找书,找到了贴上,回来的时候已经打了 100 张标签了。

    我想说的是,这个问题最大的瓶颈在于粘贴和取放书。
    判断一本书的分类对人类来说,就是撕标签的同时就处理了
    shiny
        15
    shiny  
    PRO
       Apr 19, 2016
    最理想的办法是爬图书数据库,能覆盖 20%的热门图书效果就不错了
    kyrre
        16
    kyrre  
    OP
       Apr 19, 2016
    哈哈,好吧,可能一开始没说清楚,我不处理实体书,只处理电子书,而且第一步是处理计算机技术类电子书。
    所以没有 @pimin 担心的问题。
    Use case :
    当扫描到一个 pdf 时,得到它的书名,自动猜出它最有可能属于的分类, 1 到 2 个,然后打上标签,完事。
    knightdf
        17
    knightdf  
       Apr 19, 2016
    @kyrre 只处理书名然后打标签的话,与 NLP 也没什么关系,只是个分类的问题
    dphdjy
        18
    dphdjy  
       Apr 19, 2016 via Android
    乌克兰拖拉机简史。。。
    kyrre
        19
    kyrre  
    OP
       Apr 19, 2016
    @dphdjy 别闹,我只处理英文
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4503 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 01:03 · PVG 09:03 · LAX 18:03 · JFK 21:03
    ♥ Do have faith in what you're doing.