V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
lanweizhujiao
V2EX  ›  程序员

当大模型失去“品牌光环”,你还能分辨出谁更聪明吗?——我做了一个 AI 盲测竞技场

  •  
  •   lanweizhujiao · 4 小时 23 分钟前 · 804 次点击

    最近我在死磕 AI Agent 的评估技术,看了市面上五花八门的评测榜单,又去深入研究了各种复杂的 AI 辅助评估体系(比如让 GPT-4 当裁判)、RAGAS 等等。

    但看来看去,总觉得心里缺点什么。

    现在的模型评测痛点真的太明显了:

    1. 指标太冰冷:各种学术化的分数堆叠在一起,当模型真正面对普通用户的闲聊、吐槽或者是各种稀奇古怪的需求时,那些干瘪的指标根本体现不出哪个模型更有“人情味”和灵性。
    2. AI 当裁判的偏见:用强模型做评委( LLM-as-a-Judge )不仅贵,而且这些模型特别喜欢“给自己打高分”(也就是自我偏好),或者是哪个答案长就选哪个。
    3. 真实声音太少:其实最有效、最能反映用户诉求的评测,就是真实用户的“用脚投票”( RLHF 人类偏好数据),然而市面上能让普通人低门槛参与进来的开源趣味测评并不多。

    所以,我索性自己动手糊了一个小项目:AI Evolution Arena ( AI 进化竞技场)

    👉 体验地址在这里: https://arena.angrach.top/

    简单来说,这是一个 大模型盲测与评测平台

    它是怎么玩的?

    • 双开盲盒:当你进入竞技场,系统会自动在幕后随机抽选两个匿名大模型(可能是通义、GPT 、或者是某个黑马模型)。
    • 匿名对战:你可以尽情地抛给它们任何问题——写代码、讲笑话、甚至情感咨询。两个模型会同时流式输出答案,这个时候你是看不到它们名字的。
    • 必须站队:抛开了排版和品牌的先入为主,你只能单凭“谁这盘回答得好”来选择偏好(左边好 / 右边好 / 都好 / 都烂)。
    • 揭开真名:当你投完票,才会揭晓这两位选手的“真面目”。那一刻你可能会惊呼:“什么?我刚才居然觉得 XXX 比 GPT 还要顺眼?”

    我最初做这个项目的初衷真的就是为了 撕掉大模型的厂牌标签,回归到“回答内容本身”

    它没有任何登录注册的门槛,即开即用。所有的流式渲染、打字机效果我都做了仔细的优化,只为给你最流畅的对阵体验。希望你能来玩一玩,哪怕只是偶尔遇到了什么无解的问题,顺手丢进竞技场,看看两个神秘模型谁能给你更好的启示。

    平台刚上线,后续我还会把胜率排行榜( Leaderboard )慢慢完善起来。你的每一次投票,其实都在帮我们沉淀一份最真实、最宝贵的人类偏好数据。

    13 条回复    2026-03-29 14:33:08 +08:00
    lanweizhujiao
        1
    lanweizhujiao  
    OP
       4 小时 14 分钟前
    昨晚熬到三点把那个「 AI 竞技场」的小玩具终于部署上线了,现在坐在工位上还有点恍惚。

    其实起因特别简单——前阵子我在研究怎么给手里的 Agent 选基座模型,看了无数测评榜单,MMLU 分数一个比一个高,但实际用起来总觉得哪里不对。后来我发现一个问题:**当我看到「 GPT-4 」这个 logo 的时候,潜意识里就已经给它加分了**;而看到某些国产模型的名字时又会不自觉地带着偏见去挑刺。

    这让我想起以前看过的百事挑战实验。于是我就想:**如果我把所有模型的名字都藏起来呢?**

    说干就干。上周末推掉了所有社交活动在家糊了这个小网站:

    👉 **https://arena.anqrach.top/**

    它长得特别朴素甚至有点简陋——你进去之后输入任何问题系统会随机抽两个匿名模型同时给你回答你看不到任何品牌标识只能凭直觉判断左边好还是右边好或者都很烂。**只有当你投完票那一刻才会揭晓刚才跟你对话的到底是谁**可能是 Claude 也可能是某个开源小模型或者是通义千问...

    我自己测试了几天发现这事儿特魔幻有好几次我觉得「这回答逻辑清晰还有人情味肯定是 GPT 吧」结果揭开一看是某个我之前完全没正眼瞧过的小众模型;也有那种看着很华丽但其实空洞无物的答案最后发现是大厂旗舰款瞬间有种被品牌光环骗了的感觉。

    说实话这个项目没什么技术含量就是 FastAPI+React 的简单拼接甚至代码写得还挺糙的流式输出那块调了很久才不让两边打架但我自己玩得挺上瘾因为它真的逼着我回归到了内容本身而不是在看牌子下菜碟儿。

    如果你今天摸鱼无聊或者正好在纠结该用哪个 AI 不妨来扔几个问题试试手气不用注册打开就能玩要是遇到了什么离谱的对局结果欢迎截图发给我看看咱们一起祛祛魅😄
    Adven
        2
    Adven  
       3 小时 23 分钟前
    可以考虑下让其中一个大模型去给其他的各个大模型的回答打分。
    sddyzm
        3
    sddyzm  
       3 小时 22 分钟前
    这个方向不错
    HeyWeGo
        4
    HeyWeGo  
       3 小时 14 分钟前
    进步
    tancy
        5
    tancy  
       2 小时 49 分钟前 via Android
    抽中的两个回答问题,没抽中的抽 n 个来给它俩打分,去掉一个最高分去掉一个最低分,计算平均分
    还能让提问者加入打分,通过权重来计算总得分
    还能通过得分累计系统,得分越高的模型打分权重也越高
    coderluan
        6
    coderluan  
       2 小时 46 分钟前   ❤️ 1
    楼主做之前没问下 ai 有没有类似产品吗,https://arena.ai/挺出名的。
    beasnail
        7
    beasnail  
       2 小时 40 分钟前 via Android
    @coderluan 哈哈刚想说这个,这已经是权威网站了
    limhiaoing
        8
    limhiaoing  
       2 小时 13 分钟前
    @coderluan 看到标题我也想到了这个
    icyalala
        9
    icyalala  
       1 小时 5 分钟前
    大模型竞技场一直都是知名榜单啊: https://arena.ai/leaderboard
    lanweizhujiao
        10
    lanweizhujiao  
    OP
       53 分钟前
    @tancy 这个不错啊 就是费 token
    lanweizhujiao
        11
    lanweizhujiao  
    OP
       53 分钟前
    @icyalala 我也刚知道 我说我用 ai 写的时候 ai 怎么这么顺畅 原来它有我不知道的原型啊
    CEBBCAT
        12
    CEBBCAT  
       47 分钟前
    难评。AI 扩写的文案,AI 扩写的软件,AI 生成的一楼
    kuhung
        13
    kuhung  
       4 分钟前
    其实 up 如果能强调特定人群的话,也许还有机会。arena.ai 的一眼能看出谁强,反正几乎都是新出的。但是垂直领域呢?难说
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2820 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 06:37 · PVG 14:37 · LAX 23:37 · JFK 02:37
    ♥ Do have faith in what you're doing.