V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jdz
V2EX  ›  程序员

我的使用姿势不对么, 我感觉 ds 很差劲啊, 比 grok3 差远了, 编程相关问题试了几次都表现很差

  •  1
     
  •   jdz · 22 天前 · 15556 次点击

    比如 example.nacos.com 这是我的 nacos 地址, 帮我写个 bash 脚本, 查询 cpp_long_link 命名空间下的所有服务信息, grok 可以一次写对, deepseek 就会忘记 pageSize 这个参数

    164 条回复    2025-03-29 10:15:35 +08:00
    1  2  
    duzhuo
        101
    duzhuo  
       21 天前   ❤️ 1
    @Moierby 这么多层为数不多的正常回答,这 b 论坛有时候一扯到中国就开始输出情绪了
    ysn2233
        102
    ysn2233  
       21 天前
    除了编程比 claude 差其他没感觉出来,都是各有优势
    byc4i
        103
    byc4i  
       21 天前   ❤️ 3
    全是工人视角在阴阳怪气。
    DS 核心是是 2 块 4090 (十万左右)跑生产级别的大模型。这意味着什么?
    magicfield
        104
    magicfield  
       21 天前
    楼上说 deepseek 慢的为啥不用各家平台的 api 。
    magicfield
        105
    magicfield  
       21 天前
    代码用 claude ,其他用 ds ,挺好使的。
    ds 现在我用着感觉最大问题感觉是功能性的功能差点意思,比如使用 function call 的幻觉太多了,很难稳定下来
    GuLuDaDuiZhang
        106
    GuLuDaDuiZhang  
       21 天前   ❤️ 1
    日常 ds-r1 ,代码 3.7t ,备胎 gemini 。gpt 什么都能做但缺少专精的地方,感觉现在已经没有护城河了,tokens 还贵,最容易被 r1 取代。grok 只记得输出快但尴尬的是当时第一次用输出的代码不符合预期,后面就没再用了。

    个人感受 r1 代码能力不差,可惜输出总是差那么口气,例如我想要个项目大致框架 r1 容易东西全部写一个文件里,而 3.7t 基本能正常拆分出代码文件进行输出,所以我代码主力还是 3.7t 。很期待后续 ds-r2 编码实力,应该能打平 3.7t ,期待能薄纱。不过真要薄纱了,充钱的我就成小丑了(,claude 你加把劲啊,哭

    其它日常问问题感觉主流模型都半斤八两,个人更喜欢 r1 的推理和输出格式,但偶尔输出的有点奇怪,可能是被联网查的东西给带歪了。

    另外我试了下 op 对这个脚本的描述,ds 的输出也带了 pageSize 参数呀,可能脸黑中奖了,新开个对话试试吧。
    cat9life
        107
    cat9life  
       21 天前
    @lovedebug #76 你这个用法就是之前比较火的。把 ds 的思维链发给其他大模型去推理
    BestPix
        108
    BestPix  
       21 天前
    写前端豆包都够我用了,我都用不到 ds ,你们居然还拿海外付费版的对比,看来大家的需求确实不一样
    msg7086
        109
    msg7086  
       21 天前
    DS 的意义不是暴打 Claude 或者 Grok 或者 Gemini ,而是能在有限的成本和卡脖子的前提下依然做到不错的成绩。你要指望 DS 全方位暴打收费模型,那人家真的都倒闭算了。

    顺带一提,我感觉 DS 训练用的语料和其他几家的差别很大,这几天测试翻译能力的时候可以看到 DS 有大量本土化用语,像是什么「一点就通」啊「套路」啊这些国外模型吐不出的词。所以如果有条件同时使用多个模型的话,可以把 DS 当作很好的补充。
    herewego
        110
    herewego  
       21 天前
    r1 的推理真的挺好用的,我给输入参数和输出结果让他帮我写程序实现,他自己搁这里思考了 5 分钟,不断推导,验证,最后给我的东西准确率还挺高的。就是如果开了联网,容易被带偏。
    写代码还是要 r1 。
    viking602
        111
    viking602  
       21 天前
    直接开了 supergrok 现在 grok3 是主力 之前也开过 gptplus 太麻烦而且节点还有要求
    TubroRock
        112
    TubroRock  
       21 天前   ❤️ 4
    一般人都不会拿个例否定全部,要得出结论好歹正常测试下:
    https://github.com/KCORES/kcores-LLM-Arena

    https://github.com/cpldcpu/llmbenchmark/blob/master/raytracer/Readme.md
    zhangeric
        113
    zhangeric  
       21 天前
    挺无聊,捧一家踩一家,我觉得 10 有 89 是广告帖.
    zmal
        114
    zmal  
       21 天前
    R1 写代码不如 V3 。再者就是温度要低。
    karatsuba
        115
    karatsuba  
       21 天前
    我现在重度依赖 grok ,deepseek 用来搜搜中文问答还行
    yuanran
        116
    yuanran  
       21 天前
    @wryyyyyyyyyyyy #86 阿里的啊,chat.qwen.ai 选 32b
    zhmouV2
        117
    zhmouV2  
       21 天前
    ds 的幻觉还是严重的要命,比如让它给出代码优化建议,后面还能给出来一个这种性能对比:

    指标 优化前 优化后 提升幅度
    初始渲染时间 (ms) 450 220 51%
    内存占用 (MB) 85 62 27%
    分组切换时间 (ms) 120 40 67%
    选中行响应时间 (ms) 80 20 75%

    离谱好么
    letwewell
        118
    letwewell  
       21 天前
    cursor 天下第一,其他都是垃圾
    ChristopherWu
        119
    ChristopherWu  
       21 天前
    R1 实用性比较差,但凡用来改代码,讨论系统架构,优化产品业务,思考前景,都给你聊虚的,一点都不中用。
    qwert999
        120
    qwert999  
       21 天前
    很多时候是提问质量和主观感受带来的差别,直接看技术测评 https://artificialanalysis.ai/
    Reid
        121
    Reid  
       21 天前
    whatalittleboy
        122
    whatalittleboy  
       21 天前
    各有所长。股票相关的,ds 完胜
    catazshadow
        123
    catazshadow  
       21 天前 via Android
    刚出来就说过了,这玩意就是个跑分器,实际多半用一塌糊涂

    结果被追着喷
    wowpaladin
        124
    wowpaladin  
       21 天前
    有人再说写代码,有人再说 AI 搜索,不能先对齐一下再吵吗?

    那些不开联网搜索,大谈幻觉的,我也是服了。

    日常 AI 搜索用元宝版 DS-R1 ,没啥问题吧。
    aboutier
        125
    aboutier  
       21 天前
    deekseek 有一点好, 问关于 android 和谷歌的问题, 回答得全是我想要的。gemini 就会有审查。
    Revenant
        126
    Revenant  
       21 天前
    看了一遍评论区,还真有人把 DeepSeek-32B 等同于 R1 啊,然后喷 DS 垃圾的啊😂
    DIO
        127
    DIO  
       21 天前 via Android
    littlecowherd
        128
    littlecowherd  
       21 天前
    DeepSeek-R1, DeepSeek-V3, DeepSeek-R1-Distill-xxx 是完全不同的模型,你们说的 DS 是哪个
    BQsummer
        129
    BQsummer  
       21 天前
    @byc4i 你不会真把蒸馏的 32B 当做 deepseek 了吧
    iyaozhen
        130
    iyaozhen  
       21 天前
    因为不是所有人都编程。
    就国内而言,生活类的知识(含联网搜索)豆包还是 TOP1 ,毕竟有抖音数据源,其它模型也是巧妇难为无米之炊。这类不需要推理,更多是 RAG
    相对专业一点的,比如我媳妇是高中老师,深度使用者,她反馈来看 deepseek 在 R1 思考模型的加持下优势很大
    编程这块确实是个单类,从 trae 国内版反馈来看,R1 不太适合编程,有时候会纠结思考很久,结果也不多,但最新 v3 大家反馈还不错,当然和每个人的提问有关,有时候不需要长思考。总的来说这块不是 deepseek 的优势,claude 断崖式第一。但大家为什么那么拥抱 deepseek 呢,因为他潜力很大,说不定下个版本就反超了
    BQsummer
        131
    BQsummer  
       21 天前
    说 deepseek 会营销是不对, 当年 ds 火起来花了一周多, 而且是国外火到国内的, 然后国内自媒体开始各种吹了, 和深度求索没有关系
    lance07
        132
    lance07  
       21 天前
    前两天改一个多线程的逻辑,只有 R1 思考了一会找到了 bug 改好了,克劳德 3.7 和 gpt4o 都不行。 另外 op 包括楼上讨论都得说明是哪个版本的模型
    alading11
        133
    alading11  
       21 天前
    @evilStart #22 上网久了现在属实分不清了,你是串子吗?
    alading11
        134
    alading11  
       21 天前
    @javazero #9 grok3 的深度思考有 24h 内的数量限制,不过非深度思考也很够用了
    zbw0414
        135
    zbw0414  
       21 天前
    @Meursau1T
    抛开种族和政治偏见, 使用起来我个人感觉还是不错的. 下面有一个 web search 任务的测试, 可以作为部分参考吧.
    https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
    lovedebug
        136
    lovedebug  
       21 天前
    @cat9life #107 对,各家有各家的强处,训练方向有区别?
    stanley0black
        137
    stanley0black  
       21 天前
    实际用下来,写代码 grok3>deepseek>>qianwen
    yh7gdiaYW
        138
    yh7gdiaYW  
       21 天前
    为什么总有人觉得 ai 就是写代码的...让 deepseek 火起来的从来不是这个啊
    elevioux
        139
    elevioux  
       21 天前   ❤️ 3
    我觉得 ds 能引起这么大的热度,是因为开源,而不是能力。

    ds 刚出来的时候是 o1 水平,并没有超越 openai ,但依然能引起这么大的讨论,甚至 nv 的股票都跌了,就是因为这么强的模型,居然开源。对比 openai ,一个月 pro 都几百美金。

    到现在为止,ds 的影响还在继续,各家更高级的模型都在免费/降价下放。
    will800
        140
    will800  
       21 天前
    @evilStart #22 啥都要往大旗方向扯,你有意思吗
    wolfie
        141
    wolfie  
       21 天前
    免费版 grok3 都能完爆 claude 了。更别提 降智 gpt 、正常 gemini 。
    reggiebriggesmex
        142
    reggiebriggesmex  
       21 天前   ❤️ 1
    ds 的幻觉。。我遇到过它直接生成无法显示的示例图片的链接
    iv2ex
        143
    iv2ex  
       21 天前
    @dbaazz #94 谢谢大佬
    dodakt
        144
    dodakt  
       21 天前
    CrazyRain0001
        145
    CrazyRain0001  
       21 天前
    感觉 ds 专业点的编程问题明显好点呀,比如:
    > cdma matlab 原理仿真

    用 grok3 给的代码给出误码率 0.5
    rpish
        146
    rpish  
       21 天前
    @jdz 代码生成最好还是用 R1 这种推理模型,效果比较好。
    或者可以等过阵子 R2 出来再试试看,应该会好很多。
    jiaqili
        147
    jiaqili  
       21 天前
    我没看出害怕来🤣
    FirefoxChrome
        148
    FirefoxChrome  
       21 天前
    grok 用过几次思考陷入死循环。。。
    Quarter
        149
    Quarter  
       21 天前 via Android
    从上面很多的帖子来说,我只能说,无脑吹和无脑踩的都差不多的人(无脑的人),到底怎么样,是不是符合自己的需求还是需要自己来试的

    另外,从我个人角度来讲,有的时候确实一个模型并不能胜任所有的工作,所以我时常会切换着使用,有的时候 ds 能帮我解决问题,有的时候 4o-mini 能够简单直接的回答我想要的内容,也有的时候是其它的模型

    目前确实没有什么模型是完美的,而且也没有哪个模型是特别稳定,同一个类型的问题都总能答对,出现幻觉或者技术资料过时也是蛮常见的
    Magicdove
        150
    Magicdove  
       21 天前
    主要是吐字太慢
    wenruoliushui
        151
    wenruoliushui  
       21 天前
    都用过敲代码都一般般
    jqtmviyu
        152
    jqtmviyu  
       21 天前
    为啥我体验下来代码能力还是 cursor 用的 claude 强.

    希望后续推出写代码的专精模型, 而不是什么都训练的大模型.
    cskeleton
        153
    cskeleton  
       21 天前
    @reggiebriggesmex #142 我遇到过。给我生成了一个 markdown 还是 docx 的下载链接,是假的。我告诉它这个链接是它编的,根本不存在这个文件,而且我不需要你给我生成一个文件,然后它又编了一个假链接。
    littlecreek
        154
    littlecreek  
       21 天前
    @windyboy 哈哈, 听说 ds 的老板都被国家重点保护了, 楼主居然敢说它不好
    kokerkov
        155
    kokerkov  
       20 天前
    主要是 deepseek 很慢很慢,不想用。
    cxe2v
        156
    cxe2v  
       20 天前
    @dodakt #144 这是个什么工具网站?
    Meursau1T
        157
    Meursau1T  
       20 天前
    @zbw0414 我问过他一个问题,菜鹅是什么国家,DS 和 Qwen 给的答案都是对的,但 perplexity 告诉我菜鹅是法国的一道菜。这玩意你说他懂吧,他也知道 386 是什么意思,但很多你以为他懂的时候他完全不懂。而且他会根据用户 IP 选择性降低智力,以及截断过长的输出。
    byc4i
        158
    byc4i  
       20 天前
    @BQsummer 32B 是一块 4070 跑的
    dodakt
        159
    dodakt  
       20 天前
    @cxe2v #156 Google 自己的大模型开发站,可以免费体验 Google 自己的大模型,一般比 Gemini 还早一些提供
    zbw0414
        160
    zbw0414  
       20 天前 via Android
    @Meursau1T 这个涉及到中文语言梗可能还是国内模型更擅长,毕竟国外的模型利用的中文数据确实很有限,irga 做网页搜索能使用的中文网站也不多。我主要还是看一些技术工程类的搜索问题,perplexity 的幻觉率很低,这一点我觉得他做的挺好。另外你说的降智截断这个确实是的,有些 vpn 的 ip 用得太多了他可能会是别人机器人爬虫逆向。所以现在买 vpn 也得尽量买小众的
    aplomb2
        161
    aplomb2  
       20 天前
    写代码还是 Claude 3.7 , 日常文案和问答,已经从 ChatGPT 迁移到 Grok3 了。
    google2023
        162
    google2023  
       20 天前
    @dapang1221 为什么没有 chatgpt ?
    Tink
        163
    Tink  
       19 天前 via iPhone
    我自建的 671B 写起来非常好用啊,之前写了一个带用户注册和 cookie 配置的 youtube 下载站,半天搞完了
    jdz
        164
    jdz  
    OP
       19 天前 via Android
    @Tink 牛逼,大佬建下来用了多少钱
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3055 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:19 · PVG 08:19 · LAX 17:19 · JFK 20:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.