V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
tool3d
V2EX  ›  程序员

感觉一些人对 claude 3.7 sonnet 有误解,以为是编程领域最强的模型。

  •  
  •   tool3d · 2 天前 · 5686 次点击
    其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。

    另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。

    下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!

    47 条回复    2025-03-18 19:05:15 +08:00
    wanniwa
        1
    wanniwa  
       2 天前   ❤️ 32
    嗯,都是牛马,谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强
    clemente
        2
    clemente  
       2 天前   ❤️ 1
    找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的

    1. 提示词对输出的提升 可能 更重要
    2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几
    ly841000
        3
    ly841000  
       2 天前
    claude 后端不行,写个三缓冲都写不明白
    digd
        4
    digd  
       2 天前
    chatgpt 排名强,体验拉
    vopsoft
        5
    vopsoft  
       2 天前 via Android   ❤️ 2
    可拉到吧
    claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比
    klo424
        6
    klo424  
       2 天前
    claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈
    enchilada2020
        7
    enchilada2020  
       2 天前 via Android
    都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了
    Cheez
        8
    Cheez  
       2 天前
    claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。
    zgjldxdyt1
        9
    zgjldxdyt1  
       2 天前
    别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。
    RandyLuo
        10
    RandyLuo  
       2 天前
    chengyiqun
        11
    chengyiqun  
       2 天前
    claude 上下文 200k token
    deepseek 64K token
    这还比啥编程领域, 长上下文明显更有优势
    AoEiuV020JP
        12
    AoEiuV020JP  
       2 天前
    我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
    InkStone
        13
    InkStone  
       2 天前
    不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
    HUZHUANGZHUANG
        14
    HUZHUANGZHUANG  
       2 天前
    我不关心什么跑分,我只关心谁用的顺手
    Promtheus
        15
    Promtheus  
       2 天前
    懂了 claude 3.7 最强
    seven777
        16
    seven777  
       2 天前
    数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
    可以反驳,但我不接受.
    "竞赛制编程"有什么明显的不同和特点?
    iflint
        17
    iflint  
       2 天前
    @enchilada2020 这么牛🐂
    zekeluii
        18
    zekeluii  
       2 天前
    寫代碼確實是 Claude 3.7 最強
    windyboy
        19
    windyboy  
       2 天前
    奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序
    cheng6563
        20
    cheng6563  
       2 天前
    所以你整天竞赛还是整天 CURD ?
    securityCoding
        21
    securityCoding  
       2 天前
    @iflint 抓 bug 我感觉几个主流模型都非常强
    HEGGRIA
        22
    HEGGRIA  
       2 天前
    3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking
    LHN
        23
    LHN  
       2 天前   ❤️ 3
    这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!
    Rickkkkkkk
        24
    Rickkkkkkk  
       2 天前
    这下跑分的尴尬之处就体现出来了

    大家真正都在用的东西,谁更好用不是跑分能体现的
    ytmsdy
        25
    ytmsdy  
       2 天前
    反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。
    aloxaf
        26
    aloxaf  
       2 天前
    编程排名目前只认 https://aider.chat/docs/leaderboards/

    Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。
    Yuanlaoer
        27
    Yuanlaoer  
       2 天前
    所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。
    mxT52CRuqR6o5
        28
    mxT52CRuqR6o5  
       2 天前   ❤️ 1
    你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
    两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的
    jsutfun
        29
    jsutfun  
       2 天前
    刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀
    aloxaf
        30
    aloxaf  
       2 天前   ❤️ 2
    还有一点,claude 系列的 agent 能力真的特别强,这点似乎还没有哪类排行榜可以体现,但是这个对于大项目来说是必须的。

    上周在一个不熟悉项目的遇到一个小 bug ,试了下直接让 AI 分析,o3-mini 和 claude 3.7 sonnet 的表现大致如下:
    o3-mini:只看我给的上下文,然后思考半天作答,结果自然是完全不对。
    claude 3.7 sonnet:看完我给的上下文后,顺着调用链不断阅读代码……竟然真的准确定位到了问题,问它这整个调用流程是啥样的也能答上来。

    anthropic 别的不说,在编程这方面绝对是最务实的公司,很清楚在编程方面真正需要的能力是什么。
    murmur
        31
    murmur  
       2 天前   ❤️ 1
    claude 3.7 得看是谁家的 cluade ,大模型是一部分,还要上下文,角色调教,目前看 cursor 和 copilot 的 3.7 都不错,但是我更喜欢 copilot 的界面,cursor 的新界面给我用吐了
    idealhs
        32
    idealhs  
       2 天前
    claude 暴力输出上千行代码不带报错的,其他家做得到吗
    seven777
        33
    seven777  
       2 天前
    @murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
    cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的.
    murmur
        34
    murmur  
       2 天前
    @seven777 cursor 新版的遇到个 bug ,不知道是设计还是啥问题,在同事电脑,如果是远程桌面下,按减号键,比如 this-is-a-css-class ,会把我选的上下文给我减下去

    而且不知道为啥,那个上下文关联被 copilot 吊打,首选上下文要半天才能反应过来,copliot 直接打文件名就可以,cursor 想快必须得文件拖拽到聊天接口里,关联里选文件搜不到。。。
    muzei233
        35
    muzei233  
       2 天前 via Android
    和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds
    ychost
        36
    ychost  
       1 天前
    anthropic/claude-3.7-sonnet 这是目前最好用的模型吧,尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅,国产模型 Qwen 、deepseek 等都不行,尤其在工具调用方面
    maix27
        37
    maix27  
       1 天前
    手机电脑手机年年出新,你年年换吗?
    编程语言次次出新,你是不是也在追逐?

    我不会刻意的追逐一个没有意义的东西,而不是因为对这个东西有误解。
    stormsuncc
        38
    stormsuncc  
       1 天前
    who care
    ClaudeAi
        39
    ClaudeAi  
       1 天前 via Android
    大家说得对
    mogutouer
        40
    mogutouer  
       1 天前
    sonnet 好用是因为 cursor 写了不少内部提示词,跟工具配合最好,解决问题事半功倍,所以最好用。
    o3-mini 便宜但不认 cursor 的提示词,只适合开新对话处理新问题,并且你自己的提示词要写一大堆。

    不在 cursor 环境下,如果是直接网页上对话,最强的目前是 grok3 think 吧,几乎可以解决一切难题,思考过程比 deepseek R1 还要长。
    uncleroot
        41
    uncleroot  
       1 天前
    一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域 —— 这个不正是大多数人所需要的
    gigishy
        42
    gigishy  
       1 天前 via iPhone
    @seven777 最近连续喂 ai 数竞题,谷歌双 2 最差,grok 能接受,o3mini 最好——截止到今晚。
    crackidz
        43
    crackidz  
       1 天前
    说了,模型是不是最强,是要看使用领域的,没有一个模型现在是六边形战士...

    怎么就不会在不同的领域选择不同的模型呢?什么精神钢印啊...
    xiexiping
        44
    xiexiping  
       1 天前
    claude 是不是最强没感知到,但是我用这么多 AI 唯一一个封号的,我也是强迫症,想着再注册一个吧,万一以后能用上呢,好嘛不接受新用户注册,不知道的还以为他垄断了呢,除了他没得可用了?
    greygoo
        45
    greygoo  
       1 天前
    sonnet 没加 thinking 在这里比什么,再说了他们用吹自己 OlympicCoder 的,无论怎么说还是动摇不了 claude 3.7 sonnet thinking 编程领域之神的地位
    sohoorc
        46
    sohoorc  
       1 天前
    已经知道 claude 3.7 最强了,没必要再次强调了吧 0.0
    xausky
        47
    xausky  
       22 小时 38 分钟前
    什么 QwQ-32B 这么强的么
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4904 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 09:43 · PVG 17:43 · LAX 02:43 · JFK 05:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.