V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
luchenwei9266
V2EX  ›  OpenAI

C-Eval, GPT4 节节败退,跌出前十。。。。

  •  
  •   luchenwei9266 ·
    luchenwei9266 · 2023-09-06 10:36:10 +08:00 · 5887 次点击
    这是一个创建于 448 天前的主题,其中的信息可能已经有所发展或是发生改变。

    讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。

    可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。

    附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html

    34 条回复    2023-09-07 17:09:08 +08:00
    x86
        1
    x86  
       2023-09-06 10:37:20 +08:00
    0 是 foreach 循环的时候从 0 开始了填的呗
    luchenwei9266
        2
    luchenwei9266  
    OP
       2023-09-06 10:40:08 +08:00
    @x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1
    Chad0000
        3
    Chad0000  
       2023-09-06 10:45:58 +08:00 via iPhone   ❤️ 13
    甭管他们怎么评,目前我只为 ChatGPT 付费。
    leonhao
        4
    leonhao  
       2023-09-06 10:48:20 +08:00   ❤️ 1
    赢麻了
    BingoXuan
        5
    BingoXuan  
       2023-09-06 10:49:41 +08:00
    看了一下测试内容,唯一想法是为何让大模型成为做题家呢?
    jolanyu
        6
    jolanyu  
       2023-09-06 10:50:27 +08:00   ❤️ 8
    (注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)
    zapper
        7
    zapper  
       2023-09-06 10:53:20 +08:00
    考霸?要来干嘛
    TimePPT
        8
    TimePPT  
       2023-09-06 10:54:18 +08:00
    @jolanyu 哈哈哈正想吐槽来着
    xlsepiphone
        9
    xlsepiphone  
       2023-09-06 10:55:10 +08:00
    榜单里面的,我只可能为 ChatGPT 付费。
    SomeBodsy
        10
    SomeBodsy  
       2023-09-06 10:56:21 +08:00   ❤️ 1
    文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代
    yigecaiji
        11
    yigecaiji  
       2023-09-06 11:11:31 +08:00 via Android
    idealhs
        12
    idealhs  
       2023-09-06 11:16:26 +08:00
    我们中国真是太厉害辣
    Eissen
        13
    Eissen  
       2023-09-06 11:22:21 +08:00   ❤️ 4
    遥遥领先
    BwNVlwSq
        14
    BwNVlwSq  
       2023-09-06 11:25:21 +08:00 via iPhone   ❤️ 1
    太酷辣
    bt7vip
        15
    bt7vip  
       2023-09-06 11:32:02 +08:00 via Android
    我也好奇,GPT4 的模型放出来了??他们可以调试??
    excitedXXX
        16
    excitedXXX  
       2023-09-06 11:39:42 +08:00
    遥遥领先!!!
    Navee
        17
    Navee  
       2023-09-06 11:44:42 +08:00
    单走一个 6
    cksspk
        18
    cksspk  
       2023-09-06 11:50:04 +08:00
    遥遥领先
    chendl111
        19
    chendl111  
       2023-09-06 12:07:49 +08:00   ❤️ 1
    前面都是国内的,我严重怀疑测试的可靠性
    yvescheung
        20
    yvescheung  
       2023-09-06 12:15:53 +08:00   ❤️ 14
    在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多
    0m9ionbP8wuvs8S3
        21
    0m9ionbP8wuvs8S3  
       2023-09-06 12:20:50 +08:00
    国产,自研,弯道超车,遥遥领先
    🤣
    akira
        22
    akira  
       2023-09-06 12:27:48 +08:00   ❤️ 2
    想吐槽点啥,但是槽点太多了,以至于不知道怎么说好
    yiencho
        23
    yiencho  
       2023-09-06 13:14:47 +08:00
    遥遥领先,遥遥领先!~~~
    234ygg
        24
    234ygg  
       2023-09-06 13:17:05 +08:00   ❤️ 1
    小镇做题家从人变模型了是吧😅
    gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。
    而且,最少也请做个网页版,并提供 API 。
    weilongs
        25
    weilongs  
       2023-09-06 13:22:09 +08:00
    这有点 不厚道吧?
    h272377502
        26
    h272377502  
       2023-09-06 13:50:04 +08:00
    @bt7vip 不是有 api 吗。。。
    cherryas
        27
    cherryas  
       2023-09-06 14:17:57 +08:00
    chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。
    george2077
        28
    george2077  
       2023-09-06 14:46:37 +08:00
    野榜不看也罢
    geomancy
        29
    geomancy  
       2023-09-06 15:02:15 +08:00
    我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。
    windyboy
        30
    windyboy  
       2023-09-06 16:23:58 +08:00
    又一个安兔兔吗?
    cheese
        31
    cheese  
       2023-09-06 17:48:16 +08:00
    这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容
    hanqian
        32
    hanqian  
       2023-09-06 22:10:52 +08:00
    要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark
    timestamp24
        33
    timestamp24  
       2023-09-07 02:41:11 +08:00
    姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。
    chancat
        34
    chancat  
       2023-09-07 17:09:08 +08:00 via Android
    一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1017 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 21:54 · PVG 05:54 · LAX 13:54 · JFK 16:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.