V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
qdwang

浅试了一下 Qwen3.6-35B-A3B,很强

  •  
  •   qdwang · Apr 16 · 2802 views

    感觉比 3.5 强不少,秒 gemma4 。可以说是 24G 内存 mac 或显卡的目前最佳本地模型,稠密的太慢了。

    有个很困难的只有 GPT5.4 才能找到的代码 bug ,它当然也是找不出来的。

    还是给 openai 充钱吧,开源就只能玩一玩。

    16 replies    2026-04-20 01:58:21 +08:00
    hanguofu
        1
    hanguofu  
       Apr 16
    谢谢分享,楼主你是在什么硬件上跑的啊?给个参考呗 ~
    C64NRD
        2
    C64NRD  
       Apr 17
    牛,这是刚发布的
    MLawliet
        3
    MLawliet  
       Apr 17 via Android
    24g 内存 mac 跑不了 35b 吧?
    catazshadow
        4
    catazshadow  
       Apr 17
    uncensored 的有了没
    qdwang
        5
    qdwang  
    OP
       Apr 17   ❤️ 1
    @hanguofu m4pro 24g 内存
    qdwang
        6
    qdwang  
    OP
       Apr 17
    @MLawliet 跑的 iq4_xs 量化,运算时刚刚好吃满 23g 内存,不会写 swap ,128k 上下文。

    做了 100k 上下文里乱序随机位置插 26 个关联计算题测试,能做对。
    Hermitist
        7
    Hermitist  
       Apr 17
    我用 omlx 直接下, git clone, hf 下, 都不能完整下来, 不知道什么鸟情况.
    qdwang
        8
    qdwang  
    OP
       Apr 17
    @Hermitist mac 不要用 mlx ,mlx 一方面量化模型拉垮,另一方面速度也不快,第三方面内存占用还高,第四方面整个包体积太大。

    gguf 系强太多,少折腾直接上 llama.cpp ,手动下载 gguf 模型
    xing7673
        9
    xing7673  
       Apr 18
    小模型不要太期待有多强的智能,我是觉得可以在 hermes 这种 agent 上让大模型做好 skill ,安排好边界处理后再让小模型去处理,看看这种老师带学生的模式能不能持续比较好。
    Hermitist
        10
    Hermitist  
       Apr 18
    @qdwang 之前跑过 llama.cpp, 没有 omlx 快, 我是 macbookair 32G M5
    qdwang
        11
    qdwang  
    OP
       Apr 18
    @Hermitist 快是因为 mlx 量化里,有些关键权重被砍成低量化了,会速度快但是质量差。你测试 gguf 也会发现,同样 4bit 里,iq4_xs 会比 q4_k_m 快很多。
    Hermitist
        12
    Hermitist  
       Apr 18
    @qdwang 我现在的问题是我下载的模型 https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8/tree/main 我的 omlx 启动不了, 说是超过内存限制了, 请问你你从哪里下载的 4bit 的?
    godymho
        13
    godymho  
       Apr 18
    我的 24G mac iq4_xs 跑不起来。降到了 2bit 试了一下,30token 左右
    wsbqdyhm
        14
    wsbqdyhm  
       Apr 19
    m1max64 跑。直接起飞,最好的开源能跑的模型,没有之一,吊打 gemma4.脚踢 qwen3.5 ,个人用下来有 minimax2.7 ,5-6 成能力了。搭配 openclaw 和 hermes
    qdwang
        15
    qdwang  
    OP
       Apr 19
    @Hermitist 你 32g 的 mac 跑 38g 的模型肯定不行的。

    https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF
    这里可以下载适合你的
    Hermitist
        16
    Hermitist  
       Apr 20
    @qdwang 我其实用过 https://github.com/TheTom/turboquant_plus 带 kv cache 跑过 ollam.cpp 不过感觉 gguf 量化的过分, 不过我还是准备试下.
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   972 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 19:00 · PVG 03:00 · LAX 12:00 · JFK 15:00
    ♥ Do have faith in what you're doing.