lynn1su
V2EX  ›  DeepSeek

deepseek-v4-flash 好像没大家说的这么智能啊?

  •  1
     
  •   lynn1su · 13 days ago · 3049 views
    感觉就比 minimaxm2.7 强点,感觉不如 qwen3.6plus ,glm5 和 kimi2.5 啊,我已经用了 2 亿多 token 了,实在没体验出智能
    尤其是指令遵循,我在 hermes 中使用时常出现不遵守规则回复。
    还有长记忆捞回测试,我上传了 900k 的武林外传的剧本 txt ,回答的很差欸
    v4-pro 这个比较很可疑,但是 v4-flash 有时候我感觉和 minimax2.7 坐一桌的
    16 replies    2026-05-04 03:15:19 +08:00
    lynn1su
        1
    lynn1su  
    OP
       13 days ago
    flash 思考强度开的 max
    ericguo
        2
    ericguo  
       13 days ago   ❤️ 1
    3 USD <= 2 RMB ,新的 token 不等式?
    dingawm
        3
    dingawm  
       13 days ago
    flash 参数量和 qwen3.6plus ,glm5 和 kimi2.5 不是一个量级的
    lynn1su
        4
    lynn1su  
    OP
       13 days ago
    @dingawm 有的时候感觉和 minimax m2.7 一个感觉,有点破防。。
    longxinglink
        5
    longxinglink  
       13 days ago
    nvidia 的 API 测试了一下,很多国模无法完成通过 cloudflare API 部署 monolith 博客项目 和 独角兽 next ( Render+free 数据库),性能不如 jules ( Gemini 3.1pro )(在其他论坛说这话会不会被喷)
    defaw
        6
    defaw  
       13 days ago
    至少他真会去自主 gradle 执行任务去拉源码解压然后分析,我没见过 glm5 以下的模型这么干过,kimi 不行,minimax 不行。
    ps:最近 3 天 opencode 的 flash 明显变蠢了,不知道咋回事。
    forisra
        7
    forisra  
       13 days ago
    @ericguo 就是这个道理。之前 ilya 还说 ai 要进入研究时代现在看是完全错误,实际上还得是力大飞砖继续堆参数量继续堆显存。
    lynn1su
        8
    lynn1su  
    OP
       13 days ago   ❤️ 1
    @defaw 量化了估计
    ybybwdwd
        9
    ybybwdwd  
       13 days ago
    280 多 b 的参数,本来就是对标 minimax2.7 这个级别的啊
    lynn1su
        10
    lynn1su  
    OP
       13 days ago
    @ybybwdwd 但是晚发这么久,应该有智力上的优势呀
    ClericPy
        11
    ClericPy  
       13 days ago
    TPS 100+ 的国产模型里,我一直在各种套餐里反复横跳,不知道哪个聪明

    minimax2.7-highspeed 、glm5-turbo 、deepseekv4-flash 、mimo2.5

    claude code 里约束好各种 md 以后,基本看不出来有啥搞不定的事情,估计是已经被我限定了改动方向了,不像一些人让它自由发挥。TDD + SDD 以后确实很少出问题了
    dingawm
        12
    dingawm  
       13 days ago
    @lynn1su #10 每个人使用的场景都不同,每个模型擅长的方向也不同,参考一些比较可靠的跑分结果和你的需求选择吧。我一般不会用各家的小模型的,但是我看 X 上有老外说 v4 flash 效果很好,性价比比 v4 pro 高很多,忘记他说的什么场景了,不过我自己的小任务还是不太考虑用小模型,毕竟用量本来就没有那么大。
    yangyaofei
        13
    yangyaofei  
       13 days ago
    v4 flash 就是不是很聪明, 有一个业务原来跑在 Deepseek v3 非推理模式下面, 现在切换到 flash 非推理模型下面, 直接输出没有跟随指令. 由于原来的提示词比较复杂有多个逻辑在里面, 不得已修改了提示词, 但是效果还是不好, 只能切到 kimi 上面了, 当然慢的飞起.

    flash 用来做简单的单一任务还是挺好的, 语音转文字的后处理做得又快又好, 不要要求太多, 这么便宜这么快还想怎样, 和 glm5.1 比就太过分了, 现在体感使用在 coding 场景下 v4 pro 都不如 glm5.1
    ghos
        14
    ghos  
       13 days ago
    @ClericPy 想问问 TDD+SDD 用什么 skill 好呢?
    plmsuper8
        15
    plmsuper8  
       13 days ago
    和 Minimax 一桌也不奇怪。某种意义上的模型泛用智能没有诀窍,还是要靠参数量、尤其是激活量 + 高质量训练;更晚推出的模型的以小博大,更多还是因为对齐了更新的流行趋势,比如 Resaoning 、Tool 、Agent 等等。但如果你的应用方向不是主流的,甚至会觉得新的倒退(比如,很多人觉得 opus 4.5 角色扮演比 4.7 更好; gpt4 比 gpt5 更人性化;写文方面还有坚持用 llama3 70b 系列的)
    germain
        16
    germain  
       13 days ago
    近 48 小时内降智了,我之前问的一些问题都能顺利过的现在同样的问题都是错的答案。( pro ,我不用 flash )
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   897 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 20:18 · PVG 04:18 · LAX 13:18 · JFK 16:18
    ♥ Do have faith in what you're doing.