V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
icedwatermelon
V2EX  ›  分享发现

记一次我对多个 LLM 进行的医学小测试

  •  
  •   icedwatermelon · 2 月 20 日 · 1387 次点击

    背景:

    最近在 B 站看到有作者对多个 LLM 进行医学难题的测试,但视频看起来有点像商单,于是萌生了个想法把手头的 AI 都测试一下,看 AI 给 AI 打分,还挺有趣的。于是分享给大家看看。

    流程:

    首先使用 ChatGPT 5.2 Pro(标准 effort) 生成一道内科医学难题。 然后让以下 AI 进行解答,然后把所有回答再给 ChatGPT 5.2 Pro(标准 effort)进行评分。评分一次后,再让它核对一遍评分。

    被测选手:

    模型 设置 链接
    Gemini 3.1 Pro Preview 绑定 Key 、开启 Code Execution 、开启 Grounding With Google Search 、思考程度 High https://aistudio.google.com/
    Kimi K2.5 思考 https://www.kimi.com/
    豆包 专家模式 https://www.doubao.com/chat/
    DeepSeek 深度思考、联网搜索 https://chat.deepseek.com/
    ChatGPT 5.2 Thinking (标准 effort) 关闭了记忆和参考历史聊天 https://chatgpt.com/
    Grok 4.20 beta - https://grok.com/
    Qwen-3.5 Plus 深度思考、联网搜索 https://www.qianwen.com/chat/
    Minimax M2.5 全能模式 https://agent.minimaxi.com/

    结果(使用 ChatGPT 5.2 Pro(标准 effort)对他们的回答打分):

    模型 评分 耗时 模型对它的评价 对话链接
    Gemini 3.1 Pro Preview 95 87.3s 并行抓住“高钾致死链+高危 PE 梗阻性休克”,资源整合与再灌注/ECMO 桥接决策成熟,接近范文。 -
    Kimi K2.5 83 未显示耗时,但应该在 5min 以内 主线正确且能用 POCUS 推动高危 PE 通道,但气道通气策略(尤其 PEEP 倾向)与抗凝逆转触发条件不够严谨。 链接
    豆包 78 未显示耗时,但应该在 5min 以内 中后段决策很强(不等 CT 、走介入/ECMO/CRRT ),但开局把插管写成默认优先导致关键顺序高危扣分。 链接
    DeepSeek 83 80s 处理顺序总体稳健、要点齐全,但关键路径(抗凝/再灌注/血液净化的明确触发点与兜底)写得偏笼统。 链接
    ChatGPT 5.2 97 未显示耗时,但应该在 5min 以内 最符合考点:先拆可逆致死因素、用 POCUS 定休克分型、再用介入/ECMO 等“第三条路”跨过出血矛盾。 链接
    Grok 4.20 beta 89 106s 思路接近高分答案且并行处置到位,但部分“尽早插管”表述与指南/数字断言过满,严苛阅卷会扣分。 链接
    Qwen-3.5 Plus 38 45s 识别 PE 但在题干强出血风险背景下直接系统溶栓并自我合理化黑便,属于本题核心安全红线。 链接
    Minimax M2.5 82 至少 17.9s 框架很强、流程完整,但 DOAC 逆转/监测( INR 、维生素 K 等)存在药理概念错误且早期一些操作偏冒进。 链接

    附注

    之前其实还测了几次,感觉 Grok 4.20 beta 的排名比较浮动,有几次高于 Gemini 3.1 ,本次比 Gemini 低。ChatGPT 5.2 Pro 的对话链接在:链接

    5 条回复    2026-02-21 00:41:01 +08:00
    BanShe
        1
    BanShe  
       2 月 20 日
    好奇 op 订阅 AI 花了多少钱
    hiwind
        2
    hiwind  
       2 月 20 日
    没有试试 Claude 家的吗
    Cabana
        3
    Cabana  
       2 月 20 日 via iPhone
    哈哈,我也有在 llm 上问过一些疾病表征以及检查报告(主要用过 gpt ,deepseek ,gemini )。和 op 的结论感觉差不多。后来就只用 gpt 了😋

    ps:各个 llm 对比下来,感觉 gpt 就是水桶机的感觉,其他 llm 都只能在某个板块上些微的超过它,但整体来说 gpt 目前 top1 还是毋庸置疑的。
    tadashiyui
        4
    tadashiyui  
       2 月 21 日 via iPhone
    所以总还是 GPT 最稳?
    laminux29
        5
    laminux29  
       2 月 21 日
    和我的实验结果一样:GPT 最稳,但某些需要在互联网犄角旮旯里搜东西的问题,Gemini 会更好。

    Deepseek 与 豆包 会出现偶尔超神的回答(比 GPT 、Gemini 与 Claude 都要强)。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   842 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:37 · PVG 05:37 · LAX 13:37 · JFK 16:37
    ♥ Do have faith in what you're doing.