![]() |
1
wanniwa 2 天前 ![]() |
![]() |
2
clemente 2 天前 ![]() 找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的
1. 提示词对输出的提升 可能 更重要 2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几 |
3
ly841000 2 天前
claude 后端不行,写个三缓冲都写不明白
|
4
digd 2 天前
chatgpt 排名强,体验拉
|
5
vopsoft 2 天前 via Android ![]() 可拉到吧
claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比 |
![]() |
6
klo424 2 天前
claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈
|
![]() |
7
enchilada2020 2 天前 via Android
都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了
|
8
Cheez 2 天前
claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。
|
9
zgjldxdyt1 2 天前
别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。
|
10
RandyLuo 2 天前
|
![]() |
11
chengyiqun 2 天前
claude 上下文 200k token
deepseek 64K token 这还比啥编程领域, 长上下文明显更有优势 |
![]() |
12
AoEiuV020JP 2 天前
我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
|
![]() |
13
InkStone 2 天前
不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
|
![]() |
14
HUZHUANGZHUANG 2 天前
我不关心什么跑分,我只关心谁用的顺手
|
![]() |
15
Promtheus 2 天前
懂了 claude 3.7 最强
|
![]() |
16
seven777 2 天前
数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
可以反驳,但我不接受. "竞赛制编程"有什么明显的不同和特点? |
17
iflint 2 天前
@enchilada2020 这么牛🐂
|
![]() |
18
zekeluii 2 天前
寫代碼確實是 Claude 3.7 最強
|
![]() |
19
windyboy 2 天前
奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序
|
![]() |
20
cheng6563 2 天前
所以你整天竞赛还是整天 CURD ?
|
21
securityCoding 2 天前
@iflint 抓 bug 我感觉几个主流模型都非常强
|
22
HEGGRIA 2 天前
3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking
|
![]() |
23
LHN 2 天前 ![]() 这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!
|
24
Rickkkkkkk 2 天前
这下跑分的尴尬之处就体现出来了
大家真正都在用的东西,谁更好用不是跑分能体现的 |
![]() |
25
ytmsdy 2 天前
反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。
|
26
aloxaf 2 天前
编程排名目前只认 https://aider.chat/docs/leaderboards/
Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。 |
27
Yuanlaoer 2 天前
所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。
|
28
mxT52CRuqR6o5 2 天前 ![]() 你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的 |
![]() |
29
jsutfun 2 天前
刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀
|
30
aloxaf 2 天前 ![]() 还有一点,claude 系列的 agent 能力真的特别强,这点似乎还没有哪类排行榜可以体现,但是这个对于大项目来说是必须的。
上周在一个不熟悉项目的遇到一个小 bug ,试了下直接让 AI 分析,o3-mini 和 claude 3.7 sonnet 的表现大致如下: o3-mini:只看我给的上下文,然后思考半天作答,结果自然是完全不对。 claude 3.7 sonnet:看完我给的上下文后,顺着调用链不断阅读代码……竟然真的准确定位到了问题,问它这整个调用流程是啥样的也能答上来。 anthropic 别的不说,在编程这方面绝对是最务实的公司,很清楚在编程方面真正需要的能力是什么。 |
![]() |
31
murmur 2 天前 ![]() claude 3.7 得看是谁家的 cluade ,大模型是一部分,还要上下文,角色调教,目前看 cursor 和 copilot 的 3.7 都不错,但是我更喜欢 copilot 的界面,cursor 的新界面给我用吐了
|
32
idealhs 2 天前
claude 暴力输出上千行代码不带报错的,其他家做得到吗
|
![]() |
33
seven777 2 天前
@murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的. |
![]() |
34
murmur 2 天前
@seven777 cursor 新版的遇到个 bug ,不知道是设计还是啥问题,在同事电脑,如果是远程桌面下,按减号键,比如 this-is-a-css-class ,会把我选的上下文给我减下去
而且不知道为啥,那个上下文关联被 copilot 吊打,首选上下文要半天才能反应过来,copliot 直接打文件名就可以,cursor 想快必须得文件拖拽到聊天接口里,关联里选文件搜不到。。。 |
35
muzei233 2 天前 via Android
和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds
|
![]() |
36
ychost 1 天前
anthropic/claude-3.7-sonnet 这是目前最好用的模型吧,尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅,国产模型 Qwen 、deepseek 等都不行,尤其在工具调用方面
|
![]() |
37
maix27 1 天前
手机电脑手机年年出新,你年年换吗?
编程语言次次出新,你是不是也在追逐? 我不会刻意的追逐一个没有意义的东西,而不是因为对这个东西有误解。 |
38
stormsuncc 1 天前
who care
|
![]() |
39
ClaudeAi 1 天前 via Android
大家说得对
|
![]() |
40
mogutouer 1 天前
sonnet 好用是因为 cursor 写了不少内部提示词,跟工具配合最好,解决问题事半功倍,所以最好用。
o3-mini 便宜但不认 cursor 的提示词,只适合开新对话处理新问题,并且你自己的提示词要写一大堆。 不在 cursor 环境下,如果是直接网页上对话,最强的目前是 grok3 think 吧,几乎可以解决一切难题,思考过程比 deepseek R1 还要长。 |
![]() |
41
uncleroot 1 天前
一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域 —— 这个不正是大多数人所需要的
|
43
crackidz 1 天前
说了,模型是不是最强,是要看使用领域的,没有一个模型现在是六边形战士...
怎么就不会在不同的领域选择不同的模型呢?什么精神钢印啊... |
![]() |
44
xiexiping 1 天前
claude 是不是最强没感知到,但是我用这么多 AI 唯一一个封号的,我也是强迫症,想着再注册一个吧,万一以后能用上呢,好嘛不接受新用户注册,不知道的还以为他垄断了呢,除了他没得可用了?
|
![]() |
45
greygoo 1 天前
sonnet 没加 thinking 在这里比什么,再说了他们用吹自己 OlympicCoder 的,无论怎么说还是动摇不了 claude 3.7 sonnet thinking 编程领域之神的地位
|
46
sohoorc 1 天前
已经知道 claude 3.7 最强了,没必要再次强调了吧 0.0
|
![]() |
47
xausky 22 小时 38 分钟前
什么 QwQ-32B 这么强的么
|