闲置 16GB M1 Pro MBP 跑大模型 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Gemma4 E4B IT 4bit MLX 能跑出几十 tokens/s ，但是有什么用呢？试着在同一局域网里面的 Mac Mini ，把 OpenCode 的 Quick 类指定成它，但是 12K 上下文都能报错，tensors cannot be broadcast 。这玩意儿到底有什么用？

也试了一下 Jackrong 的 Qwopus 3.5 9B 6bit MLX ，还是只能当单次聊天回复机器人用，接入 OpenCode 就报错。

实在是想不出来本地 LLM 有什么用。

加钱换 64G 的新机器？那钱买 Coding Plan 都够用多长时间了，不比本地模型强多了。

16 条回复 • 2026-04-08 11:52:25 +08:00

1

sddyzm

1 天前

本地模型很弱智，不建议将这点加入到任何和现实生活相关的考量中，当它不存在

2

yougo

1 天前

之前看到说 50 张 H200 也无法支撑起一个 GPT 5.2 Pro 的稳定的算力需求所以即便那些遥遥领先的闭源模型哪天开源了也跟大多数人没有关系光是电费就远超当前订阅的费用所以以后只要需求持续存在模型就会持续涨价直到和个人部署成本达成平衡

3

nc

1 天前

64G 统一内存都不够用。不如用买机器的钱去买 token ，本地模型智商还是低，上下文也有限。

4

aklllw

1 天前

想起一个冷笑话：
“我的 xx 设备能够连续跑一天的任务花费超多 token 不用一分钱”
“有没有可能是因为智力太低了所以才需要跑一整天”

5

wsbqdyhm

1 天前 via iPhone

1

单卡 4090 跑过 qwen3.5:35b 、gemma4:27b ，没什么实际意义。

6

unusualcat

1 天前 via Android

没有。唯一的用处就是即时翻译……

7

villivateur

1 天前

我想到本地模型有一个用处，就是帮盲人了解周围的情况，盲人用手机拍照后，用本地模型解析为语音

8

fredweili

1 天前

有用，用法是跑本地小模型测试自己写的 agent/rag 代码，节约一点 token ，还方便看 log
要是接入 claw 跑生产环境，用错了地方，老老实实的买订阅

9

workbest

1 天前

搞搞翻译，summary 这些没问题；

coding ，作图，视频肯定不行

10

bcllemon

1 天前

本地模型用来做路由可行吗？根据业务自动切换至不同的 ai

11

clemente

1 天前

@yougo 假的
512b 的模型上 nvfp4 只需要 500gb 的显存服务器就够了按照 H200 也就是一台服务器 8 张卡

12

mengdu

1 天前

现阶段没啥用。

13

Whittaker

1 天前

彦祖们，如果用本地模型搭建一个 QA Agent 有搞头嘛？

14

yjhatfdu2

1 天前

这个问题我在 omlx 上遇到过，似乎是你设置的上下文大小，不是比较整数的值，比如你填个 32768 或者 65536 试试

15

beginor

1 天前

不要那么悲观，本地跑一个 Zeta 或者 Qwen coder 配合 llama-code 插件做代码提示还是挺好的 🙂

16

MacsedProtoss

1 天前 via iPhone

本地模型感觉就翻译了或者劣质小说生成器
我是 5090 32g gemma 4 31b 上下文也就能拉到几万而已用途也十分有限

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 5251 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 27ms · UTC 09:19 · PVG 17:19 · LAX 02:19 · JFK 05:19
♥ Do have faith in what you're doing.