最近我在死磕 AI Agent 的评估技术,看了市面上五花八门的评测榜单,又去深入研究了各种复杂的 AI 辅助评估体系(比如让 GPT-4 当裁判)、RAGAS 等等。
但看来看去,总觉得心里缺点什么。
现在的模型评测痛点真的太明显了:
所以,我索性自己动手糊了一个小项目:AI Evolution Arena ( AI 进化竞技场)。
👉 体验地址在这里: https://arena.angrach.top/
简单来说,这是一个 大模型盲测与评测平台。
它是怎么玩的?
我最初做这个项目的初衷真的就是为了 撕掉大模型的厂牌标签,回归到“回答内容本身”。
它没有任何登录注册的门槛,即开即用。所有的流式渲染、打字机效果我都做了仔细的优化,只为给你最流畅的对阵体验。希望你能来玩一玩,哪怕只是偶尔遇到了什么无解的问题,顺手丢进竞技场,看看两个神秘模型谁能给你更好的启示。
平台刚上线,后续我还会把胜率排行榜( Leaderboard )慢慢完善起来。你的每一次投票,其实都在帮我们沉淀一份最真实、最宝贵的人类偏好数据。
1
lanweizhujiao OP 昨晚熬到三点把那个「 AI 竞技场」的小玩具终于部署上线了,现在坐在工位上还有点恍惚。
其实起因特别简单——前阵子我在研究怎么给手里的 Agent 选基座模型,看了无数测评榜单,MMLU 分数一个比一个高,但实际用起来总觉得哪里不对。后来我发现一个问题:**当我看到「 GPT-4 」这个 logo 的时候,潜意识里就已经给它加分了**;而看到某些国产模型的名字时又会不自觉地带着偏见去挑刺。 这让我想起以前看过的百事挑战实验。于是我就想:**如果我把所有模型的名字都藏起来呢?** 说干就干。上周末推掉了所有社交活动在家糊了这个小网站: 👉 **https://arena.anqrach.top/** 它长得特别朴素甚至有点简陋——你进去之后输入任何问题系统会随机抽两个匿名模型同时给你回答你看不到任何品牌标识只能凭直觉判断左边好还是右边好或者都很烂。**只有当你投完票那一刻才会揭晓刚才跟你对话的到底是谁**可能是 Claude 也可能是某个开源小模型或者是通义千问... 我自己测试了几天发现这事儿特魔幻有好几次我觉得「这回答逻辑清晰还有人情味肯定是 GPT 吧」结果揭开一看是某个我之前完全没正眼瞧过的小众模型;也有那种看着很华丽但其实空洞无物的答案最后发现是大厂旗舰款瞬间有种被品牌光环骗了的感觉。 说实话这个项目没什么技术含量就是 FastAPI+React 的简单拼接甚至代码写得还挺糙的流式输出那块调了很久才不让两边打架但我自己玩得挺上瘾因为它真的逼着我回归到了内容本身而不是在看牌子下菜碟儿。 如果你今天摸鱼无聊或者正好在纠结该用哪个 AI 不妨来扔几个问题试试手气不用注册打开就能玩要是遇到了什么离谱的对局结果欢迎截图发给我看看咱们一起祛祛魅😄 |
2
Adven 3 小时 23 分钟前
可以考虑下让其中一个大模型去给其他的各个大模型的回答打分。
|
3
sddyzm 3 小时 22 分钟前
这个方向不错
|
4
HeyWeGo 3 小时 14 分钟前
进步
|
5
tancy 2 小时 49 分钟前 via Android
抽中的两个回答问题,没抽中的抽 n 个来给它俩打分,去掉一个最高分去掉一个最低分,计算平均分
还能让提问者加入打分,通过权重来计算总得分 还能通过得分累计系统,得分越高的模型打分权重也越高 |
6
coderluan 2 小时 46 分钟前 楼主做之前没问下 ai 有没有类似产品吗,https://arena.ai/挺出名的。
|
8
limhiaoing 2 小时 13 分钟前
@coderluan 看到标题我也想到了这个
|
9
icyalala 1 小时 5 分钟前
大模型竞技场一直都是知名榜单啊: https://arena.ai/leaderboard
|
10
lanweizhujiao OP @tancy 这个不错啊 就是费 token
|
11
lanweizhujiao OP @icyalala 我也刚知道 我说我用 ai 写的时候 ai 怎么这么顺畅 原来它有我不知道的原型啊
|
12
CEBBCAT 47 分钟前
难评。AI 扩写的文案,AI 扩写的软件,AI 生成的一楼
|