最近在 B 站看到有作者对多个 LLM 进行医学难题的测试,但视频看起来有点像商单,于是萌生了个想法把手头的 AI 都测试一下,看 AI 给 AI 打分,还挺有趣的。于是分享给大家看看。
首先使用 ChatGPT 5.2 Pro(标准 effort) 生成一道内科医学难题。 然后让以下 AI 进行解答,然后把所有回答再给 ChatGPT 5.2 Pro(标准 effort)进行评分。评分一次后,再让它核对一遍评分。
| 模型 | 设置 | 链接 |
|---|---|---|
| Gemini 3.1 Pro Preview | 绑定 Key 、开启 Code Execution 、开启 Grounding With Google Search 、思考程度 High | https://aistudio.google.com/ |
| Kimi K2.5 | 思考 | https://www.kimi.com/ |
| 豆包 | 专家模式 | https://www.doubao.com/chat/ |
| DeepSeek | 深度思考、联网搜索 | https://chat.deepseek.com/ |
| ChatGPT 5.2 | Thinking (标准 effort) 关闭了记忆和参考历史聊天 | https://chatgpt.com/ |
| Grok 4.20 beta | - | https://grok.com/ |
| Qwen-3.5 Plus | 深度思考、联网搜索 | https://www.qianwen.com/chat/ |
| Minimax M2.5 | 全能模式 | https://agent.minimaxi.com/ |
| 模型 | 评分 | 耗时 | 模型对它的评价 | 对话链接 |
|---|---|---|---|---|
| Gemini 3.1 Pro Preview | 95 | 87.3s | 并行抓住“高钾致死链+高危 PE 梗阻性休克”,资源整合与再灌注/ECMO 桥接决策成熟,接近范文。 | - |
| Kimi K2.5 | 83 | 未显示耗时,但应该在 5min 以内 | 主线正确且能用 POCUS 推动高危 PE 通道,但气道通气策略(尤其 PEEP 倾向)与抗凝逆转触发条件不够严谨。 | 链接 |
| 豆包 | 78 | 未显示耗时,但应该在 5min 以内 | 中后段决策很强(不等 CT 、走介入/ECMO/CRRT ),但开局把插管写成默认优先导致关键顺序高危扣分。 | 链接 |
| DeepSeek | 83 | 80s | 处理顺序总体稳健、要点齐全,但关键路径(抗凝/再灌注/血液净化的明确触发点与兜底)写得偏笼统。 | 链接 |
| ChatGPT 5.2 | 97 | 未显示耗时,但应该在 5min 以内 | 最符合考点:先拆可逆致死因素、用 POCUS 定休克分型、再用介入/ECMO 等“第三条路”跨过出血矛盾。 | 链接 |
| Grok 4.20 beta | 89 | 106s | 思路接近高分答案且并行处置到位,但部分“尽早插管”表述与指南/数字断言过满,严苛阅卷会扣分。 | 链接 |
| Qwen-3.5 Plus | 38 | 45s | 识别 PE 但在题干强出血风险背景下直接系统溶栓并自我合理化黑便,属于本题核心安全红线。 | 链接 |
| Minimax M2.5 | 82 | 至少 17.9s | 框架很强、流程完整,但 DOAC 逆转/监测( INR 、维生素 K 等)存在药理概念错误且早期一些操作偏冒进。 | 链接 |
之前其实还测了几次,感觉 Grok 4.20 beta 的排名比较浮动,有几次高于 Gemini 3.1 ,本次比 Gemini 低。ChatGPT 5.2 Pro 的对话链接在:链接
1
BanShe 2 月 20 日
好奇 op 订阅 AI 花了多少钱
|
2
hiwind 2 月 20 日
没有试试 Claude 家的吗
|
3
Cabana 2 月 20 日 via iPhone
哈哈,我也有在 llm 上问过一些疾病表征以及检查报告(主要用过 gpt ,deepseek ,gemini )。和 op 的结论感觉差不多。后来就只用 gpt 了😋
ps:各个 llm 对比下来,感觉 gpt 就是水桶机的感觉,其他 llm 都只能在某个板块上些微的超过它,但整体来说 gpt 目前 top1 还是毋庸置疑的。 |
4
tadashiyui 2 月 21 日 via iPhone
所以总还是 GPT 最稳?
|
5
laminux29 2 月 21 日
和我的实验结果一样:GPT 最稳,但某些需要在互联网犄角旮旯里搜东西的问题,Gemini 会更好。
Deepseek 与 豆包 会出现偶尔超神的回答(比 GPT 、Gemini 与 Claude 都要强)。 |