V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
886106
V2EX  ›  Apple

Studio M4max 128G 是否合适跑大模型

  •  
  •   886106 · 22 小时 40 分钟前 via iPhone · 2480 次点击
    看上 M4 的芯片了,128G 适合跑大模型么
    26 条回复    2025-03-17 11:01:43 +08:00
    mumbler
        1
    mumbler  
       22 小时 35 分钟前   ❤️ 1
    能跑,很酷,但性价比很低

    目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用
    886106
        2
    886106  
    OP
       22 小时 31 分钟前 via iPhone
    @mumbler 你说这硬要上服务器才能跑 8 张卡了
    chiaf
        3
    chiaf  
       22 小时 26 分钟前
    你指的训练大模型吧,那不能。

    本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝
    lithiumii
        4
    lithiumii  
       22 小时 22 分钟前 via Android
    能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
    noobjalen
        5
    noobjalen  
       22 小时 21 分钟前
    我 32g 能跑 9b 大模型,这算大模型吗。 当然是不建议,能跑但慢。
    neteroster
        6
    neteroster  
       22 小时 16 分钟前 via Android
    [同时]满足下面几个要求的情况下有优势:
    1. bs=1 (不并发)
    2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况)
    3. 静音与便携
    4. 需要跑较大的模型(很慢但能跑)

    ---

    一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。

    综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。
    killgfat
        7
    killgfat  
       22 小时 14 分钟前 via Android
    除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
    hefish
        8
    hefish  
       21 小时 30 分钟前
    gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
    liulicaixiao
        9
    liulicaixiao  
       20 小时 39 分钟前   ❤️ 3
    个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
    yiios
        10
    yiios  
       20 小时 29 分钟前
    @neteroster
    你把我想说的都说完了。
    一个是没有靠谱的并发方案,另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。
    icyalala
        11
    icyalala  
       20 小时 6 分钟前
    如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。

    如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。
    ShadowPower
        12
    ShadowPower  
       19 小时 51 分钟前
    这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
    实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题
    BernieDu
        13
    BernieDu  
       19 小时 30 分钟前
    @mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
    azhangbing
        14
    azhangbing  
       18 小时 57 分钟前 via iPhone
    充钱用 token 可以到天荒地老
    DICK23
        15
    DICK23  
       18 小时 55 分钟前
    我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
    tap91624
        16
    tap91624  
       18 小时 48 分钟前
    @BernieDu 2080ti 两两之间支持 nvlink
    ShadowPower
        17
    ShadowPower  
       18 小时 35 分钟前
    @DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
    234ygg
        18
    234ygg  
       18 小时 21 分钟前
    压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
    BernieDu
        19
    BernieDu  
       16 小时 37 分钟前
    @tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧,而且 nvlink1 的带宽也不过 100 GB/s
    Liftman
        20
    Liftman  
       13 小时 27 分钟前
    我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

    但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。
    clf
        21
    clf  
       13 小时 22 分钟前
    挺适合。

    2080Ti 方案的话,残值低,买到手=亏 70%,还没算额外的电源成本和 8 卡主板等周边配套的成本。

    起码在能耗、性能和省事上来说,M4 Max 很不错。(至少后续没兴趣在本地跑大模型了,也能卖二手,保值率还是挺高的)
    wclebb
        22
    wclebb  
       8 小时 47 分钟前 via iPhone
    Mac Studio M2 Max 64G 跑过 70B DS ,能跑。只是找不到实用性价值(都是用 API 和 ChatGPT 聊天)。

    DS 问多了也会把我搞抑郁,不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI (估计 Mac 也能)。

    后面估计可以玩更好玩的玩法,只是现在还没有。
    rogerer
        23
    rogerer  
       3 小时 44 分钟前
    为了考虑要不要在本地跑 LLM 买设备,不如考虑一下这个钱拿去买 token 会不会更好。开源的模型,deepseek qwen llama ,它们的 api 也都不算贵。
    newbeelity
        24
    newbeelity  
       1 小时 51 分钟前
    请教一下 8 张 2080 怎么硬件交火,用什么交火硬件
    @mumbler
    ShadowPower
        25
    ShadowPower  
       1 小时 25 分钟前
    @BernieDu 推理对 PCIe 带宽要求很低,训练的要求倒是很高
    newbeelity
        26
    newbeelity  
       20 分钟前
    多张民用显卡叠加跑模型一直是个问题,目前仅有软件方案 exo 等(仍在 beta ),虽然官方出了 nvlink 硬件,但支持的显卡,及数量都是优先的。所以用民用显卡显存堆起来跑大尺寸模型本身就不可行。我给楼主的建议是,mac studio 可行,速度还能接受,每秒 20 个 token 左右
    -- 来自 m3 ultra 512G 统一内存用户
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5564 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 03:21 · PVG 11:21 · LAX 20:21 · JFK 23:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.