V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jeddida
V2EX  ›  自然语言处理

有朋友正在学习 nlp 吗?

  •  
  •   jeddida · 17 天前 · 1731 次点击

    自己学习遇到了一些问题,想问一下大家一些关于 nlp 的问题。 我正在做文本情感分类的模型,用的双向 lstm ,损失率一直在 0.7 左右震荡。 数据大小:5w 多条(第一列标签 0 1 ,第二列文字) batsize:32 lr:0.001 hidden dim: 64

    25 条回复    2024-12-13 17:14:53 +08:00
    murmur
        1
    murmur  
       17 天前
    情感分类对于国内没任何意义,因为审核机制导致人已经不能好好说话了

    比如下面的话
    活全家
    祝你全家富贵
    祝你以后玩的每个游戏都有来自星尘的品质

    表达的是正面还是负面的情感呢?
    murmur
        2
    murmur  
       17 天前
    常上网的人都知道,骂人不带脏字,讨论敏感话题不漏敏感词,是基本技巧

    一周不上网梗就不知道,还想依靠陈旧的语料库的算法判断情感
    jeddida
        3
    jeddida  
    OP
       17 天前   ❤️ 1
    @murmur 我纯粹就是为了学习 没有什么别的目的
    murmur
        4
    murmur  
       17 天前
    @jeddida 这东西大概是 10 多年前我上学研究的东西,现在老老实实大模型,深度学习吧
    jeddida
        5
    jeddida  
    OP
       17 天前
    @murmur 一步一步来,不可能一下就上那些
    jeddida
        6
    jeddida  
    OP
       17 天前
    @murmur 就好比我如果弄清楚为什么损失率一直下不去 下次就会避免了,哈哈
    cd605426287
        7
    cd605426287  
       17 天前
    竟然看到了 我的游戏常用语
    @murmur
    ryougifujino
        8
    ryougifujino  
       17 天前
    LLM 出来后,传统 NLP 不是意义不大了么
    jeddida
        9
    jeddida  
    OP
       17 天前
    @ryougifujino 感觉学习意义还是有的
    wh1sper
        10
    wh1sper  
       17 天前   ❤️ 1
    要不就是数据质量不高,要不就是模型拟合能力不够,总之都没啥意义,有兴趣就搞搞大模型吧
    顺便打个广告:
    腾讯地图平台招牌:NLP 算法工程师-大模型方向
    大平台福利好,老板人超 nice ,P9 大佬亲自带队,算力充足
    kaneg
        11
    kaneg  
       17 天前 via iPhone
    之前一个专业团队的事,现在大模型实现 NLP 就是一个 prompt 的事,而且自动支持多语言。现在还研究传统 NLP ,就像有机械化不用,还用牛耕地一样。
    kaidong21
        12
    kaidong21  
       17 天前
    数据很重要,不清楚你这个数据集质量如何,还有超参多调一调,另外可以换别的 model 试试你的数据集,比如 bert, 最后多和 chatgpt 聊一聊,提供的一些建议挺适合初学者的
    murmur
        13
    murmur  
       17 天前
    @ryougifujino 我还真测了一下,AI 完美过关

    这句话“祝你玩的每个游戏都有来自星尘一样的品质”可以被解读为一种讽刺或负面的情感,尤其是对于那些对《来自星尘》评价不高的玩家来说。从一些玩家和评论者的反馈来看,《来自星尘》在发布初期受到了批评,主要集中在游戏性不足、战斗系统设计问题、剧情文案质量低以及翻译问题等方面。因此,如果某人用这句话来祝福别人,可能是以一种反话的方式来表达,意指希望对方不要遇到像《来自星尘》这样被认为品质不佳的游戏。

    这个是通义千问的结果
    jeddida
        14
    jeddida  
    OP
       17 天前
    @kaneg 我不是为了完成什么我就是想学习大哥
    jeddida
        15
    jeddida  
    OP
       17 天前
    @kaidong21 谢谢大佬!
    murmur
        16
    murmur  
       17 天前
    @jeddida 懂,但是想学习一样可以学大语言模型,大语言模型也是基于老架构迭代上的,比如简单的神经网络,先以这个方向学习,至少不会落后于时代

    而且学习不可能不考虑商业应用或者落地

    等到商业的时候就知道,还是 tire 树+敏感词库管事
    Volekingsg
        17
    Volekingsg  
       17 天前
    先取少量训练数据确认是否能够过拟合
    xz410236056
        18
    xz410236056  
       17 天前
    @murmur #1 ni'td'xn'k
    你太小看 LLM 了
    xz410236056
        19
    xz410236056  
       17 天前
    @xz410236056
    @murmur #1 我看错了
    WallenHan
        20
    WallenHan  
       17 天前 via Android
    还搞过时的技术呢,上面的大佬都指名方向了。该淘汰得让他淘汰。
    jeddida
        21
    jeddida  
    OP
       17 天前
    @WallenHan 什么叫过时?什么不都得有一个法阵过程吗?一步一步学习就是过时???一口气能吃成胖子?
    jeddida
        22
    jeddida  
    OP
       17 天前
    @murmur 谢谢大佬!学完这些我就会去看看 llm 大模型。我的问题已经解决了,数据预处理的问题!
    jeddida
        23
    jeddida  
    OP
       17 天前
    感谢大家的宝贵意见!我的问题已经解决了,数据预处理的时候我自己写的词表有问题,导致 loss 一直下不去,我换用了 word2vec 就好了。对于有些 v 友说的“过时”,没有人能一口气吃一口胖子,大家都是搞开发的,都明白要一步一个脚印。
    jeddida
        24
    jeddida  
    OP
       17 天前
    @Volekingsg 谢谢大佬!问题已经解决!我自己写的词表有问题。
    murmur
        25
    murmur  
       17 天前
    @xz410236056 gpt 错了,来自星尘是鹰角的游戏,当时被骂是赤石游戏(谐音吃 shi ,还有游戏里有一张地图全是红色的石头)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2327 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 15:58 · PVG 23:58 · LAX 07:58 · JFK 10:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.