记一次我对多个 LLM 进行的医学小测试

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

背景：

最近在 B 站看到有作者对多个 LLM 进行医学难题的测试，但视频看起来有点像商单，于是萌生了个想法把手头的 AI 都测试一下，看 AI 给 AI 打分，还挺有趣的。于是分享给大家看看。

流程：

首先使用 ChatGPT 5.2 Pro(标准 effort) 生成一道内科医学难题。然后让以下 AI 进行解答，然后把所有回答再给 ChatGPT 5.2 Pro(标准 effort)进行评分。评分一次后，再让它核对一遍评分。

被测选手：

模型	设置	链接
Gemini 3.1 Pro Preview	绑定 Key 、开启 Code Execution 、开启 Grounding With Google Search 、思考程度 High	https://aistudio.google.com/
Kimi K2.5	思考	https://www.kimi.com/
豆包	专家模式	https://www.doubao.com/chat/
DeepSeek	深度思考、联网搜索	https://chat.deepseek.com/
ChatGPT 5.2	Thinking (标准 effort) 关闭了记忆和参考历史聊天	https://chatgpt.com/
Grok 4.20 beta	-	https://grok.com/
Qwen-3.5 Plus	深度思考、联网搜索	https://www.qianwen.com/chat/
Minimax M2.5	全能模式	https://agent.minimaxi.com/

结果（使用 ChatGPT 5.2 Pro(标准 effort)对他们的回答打分)：

模型	评分	耗时	模型对它的评价	对话链接
Gemini 3.1 Pro Preview	95	87.3s	并行抓住“高钾致死链+高危 PE 梗阻性休克”，资源整合与再灌注/ECMO 桥接决策成熟，接近范文。	-
Kimi K2.5	83	未显示耗时,但应该在 5min 以内	主线正确且能用 POCUS 推动高危 PE 通道，但气道通气策略（尤其 PEEP 倾向）与抗凝逆转触发条件不够严谨。	链接
豆包	78	未显示耗时,但应该在 5min 以内	中后段决策很强（不等 CT 、走介入/ECMO/CRRT ），但开局把插管写成默认优先导致关键顺序高危扣分。	链接
DeepSeek	83	80s	处理顺序总体稳健、要点齐全，但关键路径（抗凝/再灌注/血液净化的明确触发点与兜底）写得偏笼统。	链接
ChatGPT 5.2	97	未显示耗时,但应该在 5min 以内	最符合考点：先拆可逆致死因素、用 POCUS 定休克分型、再用介入/ECMO 等“第三条路”跨过出血矛盾。	链接
Grok 4.20 beta	89	106s	思路接近高分答案且并行处置到位，但部分“尽早插管”表述与指南/数字断言过满，严苛阅卷会扣分。	链接
Qwen-3.5 Plus	38	45s	识别 PE 但在题干强出血风险背景下直接系统溶栓并自我合理化黑便，属于本题核心安全红线。	链接
Minimax M2.5	82	至少 17.9s	框架很强、流程完整，但 DOAC 逆转/监测（ INR 、维生素 K 等）存在药理概念错误且早期一些操作偏冒进。	链接

附注

之前其实还测了几次，感觉 Grok 4.20 beta 的排名比较浮动，有几次高于 Gemini 3.1 ，本次比 Gemini 低。ChatGPT 5.2 Pro 的对话链接在：链接

医学

测试

模型

5 条回复 • 2026-02-21 00:41:01 +08:00

BanShe

2 月 20 日

好奇 op 订阅 AI 花了多少钱

hiwind

2 月 20 日

没有试试 Claude 家的吗

Cabana

2 月 20 日 via iPhone

哈哈，我也有在 llm 上问过一些疾病表征以及检查报告（主要用过 gpt ，deepseek ，gemini ）。和 op 的结论感觉差不多。后来就只用 gpt 了😋

ps：各个 llm 对比下来，感觉 gpt 就是水桶机的感觉，其他 llm 都只能在某个板块上些微的超过它，但整体来说 gpt 目前 top1 还是毋庸置疑的。

tadashiyui

2 月 21 日 via iPhone

所以总还是 GPT 最稳？

laminux29

2 月 21 日

和我的实验结果一样：GPT 最稳，但某些需要在互联网犄角旮旯里搜东西的问题，Gemini 会更好。

Deepseek 与豆包会出现偶尔超神的回答（比 GPT 、Gemini 与 Claude 都要强）。