V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CatCode
V2EX  ›  Local LLM

Air M3 24G 能不能跑不量化的 7B 本地大模型推理?

  •  1
     
  •   CatCode · 264 天前 · 4173 次点击
    这是一个创建于 264 天前的主题,其中的信息可能已经有所发展或是发生改变。

    无风扇:温度应该不是问题,跑几分钟,然后就可以休息一下,不会太被温度墙限制。

    看了一下 ollama 上的 7B fp16 (或者 bf16 )模型,权重文件大多在 15GB~17GB 范围内,内存应该内放下,还能给别的应用留一点儿空间。 (我看到 PyTorch 的 issues 中提到加载模型过程,即使开了 mmap 也会有剧烈的内存波动,峰值内存占用会到模型权重文件的两倍大,这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。)

    cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ,大概桌面版 4060 Ti 的三分之一。担心即使能跑,token 输出速度也很低。

    所以,有 V 友真的用 Air 跑过本地大模型吗?

    14 条回复    2024-03-29 10:08:32 +08:00
    noyidoit
        1
    noyidoit  
       264 天前
    用 16g 的 m1 跑过 4bit 4B 的 llama2 ,大概占用 6g 内存,但也只是能跑而已,输出巨慢
    RHG
        2
    RHG  
       264 天前
    18G 的乞丐版 M3pro 实测跑 13B 的 llama2 速度大概每秒 15token 左右,感觉用着没问题,只是这些本地模型还是不够智能
    maizero
        3
    maizero  
       264 天前
    M2PRO 32G 不知道能跑 13b 么
    SakuraYuki
        4
    SakuraYuki  
       264 天前
    能跑是能跑,但你应该也不会太想用
    WuSiYu
        5
    WuSiYu  
       264 天前
    并不是 4060ti 的三分之一,而是二十五分之一(纯算力),n 卡跑模型都会上 tensor core ,4060ti 的 tensor core 有 177 TFLOPS ,当时受限于内存带宽实际能跑到一半就不错了
    CatCode
        6
    CatCode  
    OP
       264 天前
    @WuSiYu 得看数据类型吧。比如我曾在 20 系显卡上跑 7B 模型,发现 fp16 非量化比 int8 量化的快至少一倍,因为 20 系并没有原生支持 int8 ,而原生支持了 fp16 。
    wensonsmith
        7
    wensonsmith  
       264 天前
    M1 Pro 16G , 跑 Mistral 7b, qwen-14b 都没问题. 一点不慢。M3 应该问题不大
    ShadowPower
        8
    ShadowPower  
       264 天前
    @CatCode 这种情况是运算性能有瓶颈,而显存带宽无瓶颈。
    量化之后实际上并不会真的用量化的精度来计算,计算时都会还原到 fp16 或者 fp32 。(不同的算子好像要求不同)。

    而还原到 fp16/fp32 的过程需要消耗额外的算力。
    jasdkasdjkas
        9
    jasdkasdjkas  
       264 天前 via iPhone
    不要幻想 Apple 机子跑模型了 老老实实 N 卡
    WuSiYu
        10
    WuSiYu  
       264 天前
    @CatCode 我这里说的都是 fp16
    oIMOo
        11
    oIMOo  
       264 天前
    你搜下这个应用 jan.ai
    里面有一些预制的模型,你可以看哪些可以跑做个参考
    oIMOo
        12
    oIMOo  
       264 天前
    @oIMOo #11 预置*
    mumbler
        13
    mumbler  
       264 天前
    fp16 和 q5_k_m 差距几乎忽略不计,7b 只需要 5G 多内存
    ozOGen
        14
    ozOGen  
       264 天前
    NAME ID SIZE MODIFIED
    gemma:latest 430ed3535049 5.2 GB 2 weeks ago
    llama2-chinese:13b-chat 990f930d55c5 7.4 GB 2 weeks ago
    qwen:14b-chat-q6_K 5967f08cc189 12 GB 2 days ago

    试过这几个都在 M2 Air 24G 上跑的,无压力
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5987 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 02:12 · PVG 10:12 · LAX 18:12 · JFK 21:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.