glm5.1， kimi2.6， minimax2.7， mimo v2.5， deepseek v4，编程能力上的排名如何？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

先抛个砖：GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6

第 1 条附言 · 8 小时 6 分钟前

以一个案例来分析这几个的能力：帮我生成一个天气查询H5应用提示词就这一句，都一样。

glm5.1： https://imgchr.com/i/pehcWCR 天气温度假

kimi2.6：https://imgchr.com/i/pehczKf 天气温度真

minimax2.7：https://imgchr.com/i/pehcBvV 拉完了

mino v2.5 ：第一遍没有给我生成，换提示词：帮我开发一个天气查询H5应用。才继续生成：https://imgchr.com/i/pehgQIJ 天气温度假。有一个背景下雨的效果

deepseek v4： https://imgchr.com/i/pehcgUJ 温度真

仅针对这个案例的评价：glm5.1，kimi2.6 可以， deepseek v4 ，mino v2.5 次之。 minimax2.7 什么玩意？

大家也可以自己测试下。

第 2 条附言 · 8 小时 2 分钟前

根据案例实测，纠正我之前的排名：glm5.7 >= kimi2.6 >= deepseek v4 > mimo v2.5
附：minimax 不配上桌。

第 3 条附言 · 7 小时 52 分钟前

换了一家图床服务

glm： https://pic1.imgdb.cn/item/69edd9636dcdaf678a8bc3fc.png

kimi2.6： https://pic1.imgdb.cn/item/69edd9556dcdaf678a8bc3f9.png

minimax2.7：
- https://pic1.imgdb.cn/item/69edda426dcdaf678a8bc4b5.png
- https://pic1.imgdb.cn/item/69edda516dcdaf678a8bc4ba.png

mimo v2.5： https://pic1.imgdb.cn/item/69edd9fb6dcdaf678a8bc460.png

deepseek v4： https://pic1.imgdb.cn/item/69edda116dcdaf678a8bc48b.png

第 4 条附言 · 7 小时 33 分钟前

接评论区的要求，增加 qwen
Qwen3.5 : https://pic1.imgdb.cn/item/69eddd196dcdaf678a8bc75c.png 和 minimax 一样，拉。
Qwen3.6-plus： https://pic1.imgdb.cn/item/69edddbc6dcdaf678a8bc7d4.png 拉
Qwen3-coder 模式： https://pic1.imgdb.cn/item/69eddeb36dcdaf678a8bc93c.png
这次的案例实测，都是用的官网的网页版，使用最新的模型测试。

其它的模型，大家感兴趣的，可以自己测试一下。

总结：国产模型第一梯队 glm ，kimi ，第二梯队：deepseek ，mimo ，第三梯队：qwen ，minimax 。

排名

编程

模型

30 条回复 • 2026-04-27 00:05:49 +08:00

canyue7897

8 小时 51 分钟前 via iPhone

我觉得 kimi 还可以哈？
没想到这么拉？

onedge

8 小时 44 分钟前

GLM 5.1 > DS v4 = Kimi 2.6 > mimo v2.5 > minimax 2.7

cookii

8 小时 42 分钟前 via Android

minimax 不配上榜好吧，夸张点说 4B 模型水平

BestEicky

8 小时 33 分钟前

@cookii 说是 4B 模型都抬举它了，应该是 SB 模型水平吧

uqf0663

8 小时 31 分钟前

kimi 我会继续订阅，但是 minimax 就算了，订阅完用了三天我就放弃了，不会再考虑使用。

onedge

8 小时 25 分钟前

@uqf0663 minimax 已经完全龙虾了，m2.5 刚出我还觉得能力可以的，2.7 真的废了

ayasealter570

8 小时 20 分钟前

minimax 官方订阅的极速版，智力低到没边了

huaweii

8 小时 18 分钟前 via Android

@ayasealter570 有没有例子看看，好奇

uqf0663

8 小时 9 分钟前

@onedge 我就是用这龙虾的，m2.7 真的是连应付龙虾基本运行都有坑，目前我的龙虾只有 k2.6 勉强马马虎虎能凑合用。

junwind

8 小时 5 分钟前

@canyue7897 实测的这个案例，kimi 还行，不过生成是很慢的

junwind

8 小时 2 分钟前

@canyue7897 kimi 不拉，是我个人的武断，实测后还不错

drealism

8 小时 2 分钟前 via Android

可以把 qwen 系列补一个进去么🤜🤛

ebushicao

6 小时 33 分钟前

每次有人说跑分能够说明能力，我就会举出 minimax2.7 这个例子，那真是连 skill 和 tool 都不一定会调用，某些时候我本地部署的 qwen3.5 9b 都比它强。

aes114514gcm

6 小时 27 分钟前

和我的体感比较接近，glm5.1 略强于 kimi2.6 ，

zenfsharp

6 小时 22 分钟前

GLM5.1 > deepseek v4 > 其他，起码到这里是同意的。
我刚开了 opencode 的 Go 订阅，在 opencode-cli 里使用同样的 skill 、MCP 、Agent.md ，问 GLM 我项目里的一个业务逻辑，直接一次性揪出来了，而 DS 没有，反复提示了三次才找到。

zenfsharp

6 小时 21 分钟前

不知道各种公众号是有任务还是怎么回事，一个劲的鼓吹 deepseek v4 ，跟实际体验严重背离。

lukaktus6768

5 小时 49 分钟前

看到 glm 我就要踩一脚，买谁都不要买他

anmie

5 小时 43 分钟前

@zenfsharp 自媒体不这么写没人看啊，但是你看 Deepseek 官方就实在多了，官方在公众号里，明确说了模型在某些方面比 xx 模型要弱，而不是无脑鼓吹遥遥领先。
这么说把，做信息分享类的自媒体，有一个算一个，肯定会夹带私货，在我看来，有一个算一个都是傻逼。而看自媒体说的就深信不疑的人也是傻逼。

我自始至终，从大模型刚能聊天，到现在 agentic ，Deepseek 虽然不是最强的那个，但是一直都是我的主力，不为别的，我坚定的站在这样一个不焦虑，不浮躁的人和公司这边。（而 minimax 我根本试都没试过，不感兴趣。）