V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
moudy
V2EX  ›  Apple

Mac Studio 实战 671B 全量大模型成绩出来了

  •  
  •   moudy · 3 天前 · 3799 次点击
    油管已经有人 show 出 Mac Studio M3 Ultra 实战 671B 大模型的成绩

    DeepSeek R1 671B 4bit 量化

    硬盘占用 404G
    内存占用 448G
    输出速度 17-18 token/s
    功耗 200W !!!

    &feature=youtu.be
    35 条回复    2025-03-19 22:30:12 +08:00
    scys
        1
    scys  
       3 天前
    只要 170w 就能跑 671b 也是牛
    wsping
        2
    wsping  
       3 天前 via iPhone
    太贵了,玩不起
    felixcode
        3
    felixcode  
       3 天前 via Android
    以前:谁没有个 gpu 服务器,谁还本地跑模型
    现在:苹果牛 B !
    aptupdate
        4
    aptupdate  
       3 天前 via iPhone
    性价比最高的一集。
    LanhuaMa
        5
    LanhuaMa  
       3 天前   ❤️ 12
    你拿买这个 macstudio 的价格去充 deepseek api ,按照目前平均 60 token/s 的速度可以持续不间断跑 19 年,整。

    20649usd / (0.035 + 0.550) * 1M / 60 / (3600*24*365)
    lucifer9
        6
    lucifer9  
       3 天前
    @LanhuaMa 这几天用 deepseek v3 跑翻译,说实话 60 tokens 每秒是肯定没有的,大部分时候比翻墙的 gpt-4o-mini 慢
    tpcy
        7
    tpcy  
       3 天前
    @LanhuaMa 有些场景是不能用 api 的
    laikick
        8
    laikick  
       3 天前
    4bit 量化.. 几乎没啥用啊
    mmmeeexxa
        9
    mmmeeexxa  
       3 天前
    目前翻译好像是 4o-mini 性价比最高了? 有没有本地部署过的,本地翻译模型有哪些?
    cheng6563
        10
    cheng6563  
       3 天前
    4bit 全量
    wclebb
        11
    wclebb  
       3 天前
    我观察一些网友对 Mac 的想法有点奇怪。

    我就问一下,按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 2080Ti 魔改显卡交火配置 8 卡电脑?还是上百万的 H100 Nvidia 专业显卡服务器?

    4Bit 精度量化部署本地的情况下只能唯一可选。
    为什么?因为没有 8Bit 或 16Bit 公开。
    ( 8Bit 应该能跑,但也太极限了)
    我估计 70B 按 8Bit 也能跑?

    DeepSeek 为何成功?是因为它降低了成本。
    更有可能搭载在部署本地上跑。也使其在 Mac 上搭建更为可能。
    FarmerChillax
        12
    FarmerChillax  
       3 天前
    @LanhuaMa 但这样你就只能跑 Deepseek 了,买电脑肯定不是为了单一需求
    tanrenye
        13
    tanrenye  
       3 天前
    @wclebb 直接购买云设备部署就行了,不然你以为商业应用都跟普通人一样用 ollama 么
    neteroster
        14
    neteroster  
       3 天前 via Android
    @wclebb

    https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

    0.3-preview, 6454S×2, 4090D, D5-4800

    pp~250, tg~12 ,我没记错的话这个 pp 远超 m3u ,tg 差些

    更好的硬件:
    https://zhuanlan.zhihu.com/p/30079534043
    wclebb
        15
    wclebb  
       3 天前
    @tanrenye 所以这是可选项,你当然可以买云服务器超强性能,然后自行买 Mac mini ,也可以的。

    我说的是它能提供这个搭建的可能。
    退一步讲,Mac 128G 能搭建 70B 就能足够满足使用的情况下,也没多少 70B 显卡能跑的吧?

    所以我说的是:它能做,在一定预算内可选。
    普通人有钱买 67K 块 Mac 512G ?也不是没可能。
    mumbler
        16
    mumbler  
       3 天前
    不用追求满血,年底 32B 就能达到 671B 水平,现在已经很接近了
    hiiragiharunatsu
        17
    hiiragiharunatsu  
       3 天前
    512g 内存上下文开不了太大 和在线版质量仍然有显著差距 不知道使用两到三台 macstudio 是否能支持更大上下文 但是对中小企业绝对是利好
    swmjjy
        18
    swmjjy  
       3 天前
    @wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
    你没去了解=没有
    wclebb
        19
    wclebb  
       3 天前
    @swmjjy 所以我说的是提供这个搭建 672B 4Bit 设备的可能。
    至于 API 还是美团上能不能点个外卖还是什么 8Bit ,我就想问问,「按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 」你扯 API 云的是为了想答赢我吗?

    好,你赢了。

    ——————

    承认这个 Mac 能跑 672B 有多难?
    dilidilid
        20
    dilidilid  
       3 天前
    很好,但确实没啥用。不然英伟达最近跌掉的市值应该涨在苹果上
    swmjjy
        21
    swmjjy  
       3 天前   ❤️ 1
    @wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上
    swmjjy
        22
    swmjjy  
       3 天前
    @wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已
    wclebb
        23
    wclebb  
       3 天前
    @swmjjy #20 行吧,我承认对刚发的 GitHub 了解不多。

    我刚拿你这个 GitHub 内容发给让 ChatGPT 询问了解;
    它一开始表示不可能,所以我直接采纳了需要 3360G 这个答案;

    后来表示你只要 3W 预算就能跑,我回去问 ChatGPT 表示你是不是算错了,它纠结了半天算了半天直到现在才告诉我它承认算错了,确实 PC 24G 显存和 300G 多内存,是理论上可以跑。

    为我刚刚没理解你发 GitHub 答案抱歉。
    @swmjjy #21
    feikaras
        24
    feikaras  
       3 天前
    问题是 4bit 量化啊。这又不值得说道。你都付了十万块了,还不能跑那才是笑话。
    zeyangstudies
        25
    zeyangstudies  
       2 天前   ❤️ 1
    @LanhuaMa 但是人家是私有化部署的,这个是关键呀~
    june4
        26
    june4  
       2 天前
    @wclebb PC 只要不到 4w, 且是 8bit, 8bit 比 4bit 强出太多根本不是一个级别
    https://mp.weixin.qq.com/s/vIrvbVJ6Nv00Ehre1zZwMw
    moudy
        27
    moudy  
    OP
       2 天前   ❤️ 1
    @LanhuaMa #5 商业上很多客户资料都是有 NDA 限制的,根本不是钱的问题
    mXw
        28
    mXw  
       2 天前
    这个价格 我不如直接去买 api
    WuSiYu
        29
    WuSiYu  
       2 天前
    个人玩真不适合玩这么大的 moe 模型。。。有多少钱都浪费在存这些参数上了,而人家云端至少几百张卡一组跑混合专家并行,平均下来能把成本优化到跟只跑跟激活的参数一样大小的模型( 21B )差不多
    MacsedProtoss
        30
    MacsedProtoss  
       2 天前 via iPhone
    @june4 然而这个方案的 token 速度很差啊…
    showonder
        31
    showonder  
       2 天前
    等年底或明年 500b 的开源大模型是不是性能能逼近 GPT4.5 了?
    ssbg2
        32
    ssbg2  
       1 天前
    @MacsedProtoss 有成本限制啊,之前是没什么好办法,现在这个(包括 MAC STUDIO 方案)是可用。
    niubilewodev
        33
    niubilewodev  
       1 天前
    17-18 token/s 在带思考链的模型上,算勉强能用。
    就是不知道上下文多了之后,prefill 时间怎么样。
    beginor
        34
    beginor  
       1 天前 via Android
    Mac 跑文本和多模态大模型推理还行,但是如果要跑 comfy ui+多媒体生成的话,还是得 N 卡。
    gigishy
        35
    gigishy  
       1 天前 via iPhone
    @wsping 从能跑 671b 模型的机器来看,这个便宜太多太多太多太多太多太多……更别说使用成本的便宜。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4072 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 04:07 · PVG 12:07 · LAX 21:07 · JFK 00:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.