V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ahdw
V2EX  ›  Local LLM

闲置 16GB M1 Pro MBP 跑大模型

  •  
  •   ahdw · 1 天前 · 1691 次点击
    Gemma4 E4B IT 4bit MLX 能跑出几十 tokens/s ,但是有什么用呢?试着在同一局域网里面的 Mac Mini ,把 OpenCode 的 Quick 类指定成它,但是 12K 上下文都能报错,tensors cannot be broadcast 。这玩意儿到底有什么用?

    也试了一下 Jackrong 的 Qwopus 3.5 9B 6bit MLX ,还是只能当单次聊天回复机器人用,接入 OpenCode 就报错。

    实在是想不出来本地 LLM 有什么用。

    加钱换 64G 的新机器?那钱买 Coding Plan 都够用多长时间了,不比本地模型强多了。
    16 条回复    2026-04-08 11:52:25 +08:00
    sddyzm
        1
    sddyzm  
       1 天前
    本地模型很弱智,不建议将这点加入到任何和现实生活相关的考量中,当它不存在
    yougo
        2
    yougo  
       1 天前
    之前看到说 50 张 H200 也无法支撑起一个 GPT 5.2 Pro 的稳定的算力需求 所以即便那些遥遥领先的闭源模型哪天开源了 也跟大多数人没有关系 光是电费就远超当前订阅的费用 所以以后只要需求持续存在 模型就会持续涨价直到和个人部署成本达成平衡
    nc
        3
    nc  
       1 天前
    64G 统一内存都不够用。不如用买机器的钱去买 token ,本地模型智商还是低,上下文也有限。
    aklllw
        4
    aklllw  
       1 天前
    想起一个冷笑话:
    “我的 xx 设备能够连续跑一天的任务花费超多 token 不用一分钱”
    “有没有可能是因为智力太低了所以才需要跑一整天”
    wsbqdyhm
        5
    wsbqdyhm  
       1 天前 via iPhone   ❤️ 1
    单卡 4090 跑过 qwen3.5:35b 、gemma4:27b ,没什么实际意义。
    unusualcat
        6
    unusualcat  
       1 天前 via Android
    没有。唯一的用处就是即时翻译……
    villivateur
        7
    villivateur  
       1 天前
    我想到本地模型有一个用处,就是帮盲人了解周围的情况,盲人用手机拍照后,用本地模型解析为语音
    fredweili
        8
    fredweili  
       1 天前
    有用,用法是跑本地小模型测试自己写的 agent/rag 代码,节约一点 token ,还方便看 log
    要是接入 claw 跑生产环境,用错了地方,老老实实的买订阅
    workbest
        9
    workbest  
       1 天前
    搞搞翻译,summary 这些没问题;

    coding ,作图,视频肯定不行
    bcllemon
        10
    bcllemon  
       1 天前
    本地模型用来做路由可行吗?根据业务自动切换至不同的 ai
    clemente
        11
    clemente  
       1 天前
    @yougo 假的
    512b 的模型上 nvfp4 只需要 500gb 的显存服务器就够了 按照 H200 也就是一台服务器 8 张卡
    mengdu
        12
    mengdu  
       1 天前
    现阶段没啥用。
    Whittaker
        13
    Whittaker  
       1 天前
    彦祖们,如果用本地模型搭建一个 QA Agent 有搞头嘛?
    yjhatfdu2
        14
    yjhatfdu2  
       1 天前
    这个问题我在 omlx 上遇到过,似乎是你设置的上下文大小,不是比较整数的值,比如你填个 32768 或者 65536 试试
    beginor
        15
    beginor  
       1 天前
    不要那么悲观,本地跑一个 Zeta 或者 Qwen coder 配合 llama-code 插件做代码提示还是挺好的 🙂
    MacsedProtoss
        16
    MacsedProtoss  
       1 天前 via iPhone
    本地模型感觉就翻译了 或者劣质小说生成器
    我是 5090 32g gemma 4 31b 上下文也就能拉到几万而已 用途也十分有限
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5251 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:19 · PVG 17:19 · LAX 02:19 · JFK 05:19
    ♥ Do have faith in what you're doing.