V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
245.03D
520.1D
V2EX  ›  Google

Gemma 4 可以通过洗车测试

  •  
  •   Livid ·
    PRO
    · 14 小时 12 分钟前 · 7704 次点击


    而且思考时间很短。
    第 1 条附言  ·  10 小时 13 分钟前
    本地运行的 31b 版本的回答:

    56 条回复    2026-04-03 22:13:56 +08:00
    tool2dx
        1
    tool2dx  
       14 小时 10 分钟前 via Android
    预感今年的本地小模型要全面崛起了。
    Tink
        2
    Tink  
    PRO
       14 小时 7 分钟前
    mlx 量化的好像也出来
    ethusdt
        3
    ethusdt  
       13 小时 59 分钟前   ❤️ 3
    有没有可能这些测试题都被硬编码进去了,就像之前 9.11 比大小和草莓几个 r 这种问题,之前会被硬编码进模型。
    gpt5
        4
    gpt5  
       13 小时 56 分钟前   ❤️ 5
    这个问题被传播太广了,估计已经进题库了。
    xiaoz
        5
    xiaoz  
       13 小时 56 分钟前
    一个单一片面的问题不能说明什么吧,不用死磕一个问题,个人观点。
    OctopusGO
        6
    OctopusGO  
       13 小时 54 分钟前
    嗯嗯
    dacapoday
        7
    dacapoday  
       13 小时 52 分钟前
    @tool2dx 没那么容易,即使内存供应没问题,30B 以上,能产生 20 token/s 的本地机器也是大家伙,无法便携.
    gkiwi
        8
    gkiwi  
       13 小时 37 分钟前
    qwen3.5-27b 也可以,如果可以再缩小 10 倍,估计未来很多都可以本地运行低级任务 + 远程的高级任务
    Livid
        9
    Livid  
    MOD
    OP
    PRO
       13 小时 34 分钟前
    @gkiwi Qwen3.5 你遇到过那种他思考了几分钟然后直接超时的情况吗
    tomclancy
        10
    tomclancy  
       13 小时 33 分钟前
    能解开道德限制吗?之前 gemma3 道德限制比 Gemini 都邪门
    FakerLeung
        11
    FakerLeung  
       13 小时 29 分钟前
    这是题库了
    DonaldY
        12
    DonaldY  
       13 小时 28 分钟前
    刚试了 qwen3.6-plus ,回答还是错的。

    At just 50 meters (about 164 feet), you should definitely walk. Here's why:

    ⏱️ Faster overall: Starting the car, backing out, driving 50m, finding a spot, and parking will almost certainly take longer than a 30–40 second walk. ⛽ Saves fuel & reduces wear: Short trips like this are highly inefficient for combustion engines. They don't reach optimal operating temperature, which increases fuel consumption, oil dilution, and long-term wear. (Even in an EV, it's unnecessary energy use.) 🌍 Zero emissions: Walking for 50 meters has no carbon footprint. 💡 Practical tip: Unless you're carrying heavy equipment, have mobility limitations, or it's actively pouring rain, walking is the smarter choice.

    Grab your supplies, enjoy the short stroll, and save your car the pointless start-stop cycle. Your wallet, engine, and the environment will thank you. 🚶‍♂️🚗💨
    diudiuu
        13
    diudiuu  
       13 小时 27 分钟前
    @Livid 应该是推理产生很多 token ,max_tokens 设置太大了
    silypie
        14
    silypie  
       13 小时 21 分钟前
    deepseek 之前不行,现在也可以了,感觉针对性训练过
    xing7673
        15
    xing7673  
       13 小时 14 分钟前
    @Livid 本地部署超时是什么提示?没遇到过
    villivateur
        16
    villivateur  
       13 小时 13 分钟前


    刚刚试了本地跑的 gemma4:e4b ,回答不正确
    eroneko
        17
    eroneko  
       13 小时 12 分钟前
    本地部署的 qwen3.5 a35b 都可以,估计已经进题库了
    Livid
        18
    Livid  
    MOD
    OP
    PRO
       13 小时 11 分钟前
    @villivateur 你试的是 4b 模型。如果试试 31b 模型呢?
    villivateur
        19
    villivateur  
       13 小时 8 分钟前
    @Livid 搞不定,显存只有 12GB ,难受
    AlbertGuo
        20
    AlbertGuo  
       12 小时 48 分钟前
    26b 不太行。而且有时能说出来有时不行。
    zololiu
        21
    zololiu  
       12 小时 47 分钟前
    zololiu
        22
    zololiu  
       12 小时 47 分钟前
    @zololiu 我试了一下 31B ,回答稳了。
    archxm
        23
    archxm  
       12 小时 43 分钟前
    能不能打 dota ?
    AlbertGuo
        24
    AlbertGuo  
       12 小时 41 分钟前
    31b 不开思考就不行了。

    ollama run gemma4:31b --think=false
    >>> I want to wash my car, the car wash is 50m away, should I walk or drive?
    You should **walk**.

    Here is why:

    1. **Efficiency:** By the time you start the engine, shift into gear, drive 50 meters, and find a place to
    park or queue, you could have already walked there.
    2. **Logic:** If you drive the car to the wash, you have to leave it there to pay or move it through the
    system. If you walk, you can check the line, pay first, or prepare your supplies without idling the engine.
    3. **Environmental impact:** Idling a car for a distance as short as 50 meters is inefficient for the
    engine and wastes fuel.

    **The only exception:** If you are towing a trailer or have a passenger with mobility issues, then
    obviously, drive. Otherwise, it's a 1-minute walk!
    hanswu
        25
    hanswu  
       12 小时 39 分钟前
    GPT 开思考
    Walk.

    At 50 meters, walking is faster once you include getting in, starting the car, and parking again. It is also easier and a bit ridiculous in a good way to drive that distance.

    Only drive if:

    the weather is awful
    you need to move the car there for the wash itself
    the car is not currently at the wash location and must be brought over

    If the car is already with you and needs to end up at the wash, the real answer is: drive the car there, but you personally are not “choosing driving over walking” for convenience.
    florentino
        26
    florentino  
       12 小时 26 分钟前
    @dacapoday 内存压缩啊,我看压缩效率很高: https://github.com/TheTom/turboquant_plus , 这个还是根据谷歌论文自己实现的,谷歌内部实现要是开源出来,估计效率应该更高
    SilentOrFight
        27
    SilentOrFight  
       12 小时 16 分钟前
    @DonaldY #12 我在 opencode 上的 qwen3.6 plus 很快正确回答啊
    liuliuliuliu
        28
    liuliuliuliu  
    PRO
       12 小时 11 分钟前
    @archxm
    ```
    Dota2 冠军 OG 如何被 AI 碾压? OpenAI 论文给答案
    2019-12-14 20:57
    在人工智能 OpenAI Five 面前,OG 不堪一击。五个人类组成的战队,此前全程毫无悬念地以 0:2 败下阵来,两局加在一起,OG 只推掉了两座外塔。
    ```

    关键字:2019 年, OpenAI, dota2 冠军
    zololiu
        29
    zololiu  
       11 小时 56 分钟前
    DonaldY
        30
    DonaldY  
       11 小时 52 分钟前
    @SilentOrFight 我在百炼上用的,深度思考模式。
    wzw
        31
    wzw  
       11 小时 50 分钟前
    有没有可能, 是有类似数据进去了, 所以思考到了, 再问一个类似的问题?
    spacezip
        32
    spacezip  
       10 小时 12 分钟前
    这问题豆包除夕当天连夜进库。。。。
    workbest
        33
    workbest  
       10 小时 2 分钟前
    @Livid 非常多这种情况
    gkiwi
        34
    gkiwi  
       9 小时 50 分钟前
    @Livid #9 遇到过。我是 4090 24G ,openclaw+qwen3.5-27b ,context 256K 太大了,一个 session 运行越久就越容易超时卡住。后来尝试了 context 32K 就很容易触发上下文 compact ,单个问答会更久,但不容易卡住超时。最好就是新建 session 缓解。再卡住就重启 openclaw gateway 了。。
    AoEiuV020JP
        35
    AoEiuV020JP  
       8 小时 53 分钟前
    快只能说明针对性训练过了, 有没有人开发个同类型的陷阱题验证一下, 当出题老师的应该擅长这些,
    coefu
        36
    coefu  
       8 小时 12 分钟前
    @dacapoday nvidia dgx spark ,只是有钱没钱的区别。
    zololiu
        37
    zololiu  
       8 小时 0 分钟前


    图片理解也挺强的,爆浆图也能看懂。
    liu731
        38
    liu731  
    PRO
       7 小时 58 分钟前
    48GB M4 Pro 运行不起来,扎心~
    fredweili
        39
    fredweili  
       7 小时 58 分钟前
    不能说明什么,也许还是过拟合
    archxm
        40
    archxm  
       7 小时 26 分钟前
    @liuliuliuliu ai 在 apm 上作弊了。限制了 apm ,也就是每分钟操作,但没限制住每秒的。那次比赛,好像有几秒,ai 操作达到 3 千的 瞬时 apm 。
    你看最近几年,这玩意就不热了,为啥,因为确实难。
    ai 作为游戏玩伴,肯定需要赋予一些人性的。不然,瞬时 apm 爆发,那优势太大了。
    silencelixing
        41
    silencelixing  
       6 小时 57 分钟前 via Android
    这是多少 G 的 mac 运行的啊,我的 m4 16g 根本跑不起来
    CS200185
        42
    CS200185  
       6 小时 55 分钟前
    @liu731 可以跑 FP8 量化的,model weight 只占用 30G 显存,性能衰减很小
    webcape233
        43
    webcape233  
       6 小时 52 分钟前 via iPhone
    千问 3.5 9b 8bit 量化都能正确回答这个问题
    liu731
        44
    liu731  
    PRO
       6 小时 46 分钟前
    @CS200185 试了一下,不行(如图)
    Hermitist
        45
    Hermitist  
       6 小时 43 分钟前
    @Livid 我用了 qwen3.5-35(跑在 macbook air M5 32G 内存机器上), 可以做到 35tokens/s, 降速也能做到 15-25tokens/s, 内存大概在 75-90%, 我感觉完全可以本地用上了.

    RocksLee
        46
    RocksLee  
       4 小时 48 分钟前
    本地运行。
    Qwen3.5 35B 通过
    Qwen3.5 27B 通过
    Qwen3.5 9B 不通过
    Gemma4 31B 通过
    Gemma4 26B 通过
    Gemma4 e4B 不通过
    ImINH
        47
    ImINH  
       4 小时 43 分钟前
    @ethusdt 大模型没有硬编码的逻辑,都是向量,原因应该是小模型本来就是蒸馏出来的,只要基础模型能解决这个问题,上下文不长的问题,就自然小模型可以解决。
    mogutouer
        48
    mogutouer  
       4 小时 13 分钟前
    这条问题太多人问了,所以新模型用新资料训练 100%能答出来
    Ethans
        49
    Ethans  
       3 小时 56 分钟前
    @zololiu #37 但这是娜美吧
    zzutmebwd
        50
    zzutmebwd  
       3 小时 18 分钟前 via Android
    我发现类似规模 moe 的表现差 dense 差很多,对 nv 这种显存小算力高的还是 dense 好,对于 mlx 或者 amd ai max 这种堆显存的还是 moe 。我是两张 4080s 32g ,准备跑 31b 原版看能不能塞下,不行就 fp8 ,作为家庭服务模型使用
    ccsexyz
        51
    ccsexyz  
       3 小时 17 分钟前   ❤️ 1
    测试了一个洗车问题的变体,Gemma 4 失败了,Gemini 3.1 Pro 没问题。
    Prompt: 我家汽车漆面划伤了,我要去离家 50 米的汽修店补漆,我应该步行还是骑自行车去?
    SeleiXi
        52
    SeleiXi  
       2 小时 58 分钟前
    @ImINH 这里硬编码的意思应该是说把 train set 当 test set 用,把这些问题直接过拟合了一次吧
    fovecifer
        53
    fovecifer  
       2 小时 54 分钟前
    @ccsexyz 我用 opus4.5 测了一下,失败
    换成 opus4.6 就成功了
    firemeteor
        54
    firemeteor  
       2 小时 22 分钟前 via Android
    这种小模型能写代码吗?
    projectjiaqi00
        55
    projectjiaqi00  
       2 小时 15 分钟前
    你们都是什么配置电脑能参考下都可以跑 31B 的?你们是刚买的还是?分享下配置参考下
    touzi
        56
    touzi  
    PRO
       57 分钟前
    gemma4:e4b m1 的 32g 速度很快, 单从速度上看完全可以日常使用. 但是洗车问题没跑过去...
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2588 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 15:11 · PVG 23:11 · LAX 08:11 · JFK 11:11
    ♥ Do have faith in what you're doing.