背景: 之前有一个 2018 年的 mac intel 16g 的 mbp ,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。
有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/秒),2023 mbp 比较卡顿(目测 3token/秒)。
问题:
准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。
1
unidotnet 94 天前
24G 算了,64G 路过表示 14b ,int4 的话,占 40G 内存左右,自己算算吧。
|
2
zmxnv123 94 天前
刚入了台 24g 的 mini ,还没测
|
3
neteroster 94 天前
@unidotnet #1
14B 4 位怎么可能 40G ,bf16 不加上下文都没这么大 |
6
ChipWat OP @unidotnet #1 我帖子里使用 Qwen1.5 parameters:14.2B quantization:Q4_0 文件大小:8.2GB 测的。老哥是不是还有其它应用,macos 系统策略是尽可能多的使用内存吧。
|
7
shuimugan 94 天前 2
大模型跑推理速度首先取决于带宽,带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾,只有 ultra 才值得跑大模型。
速度一览: https://github.com/ggerganov/llama.cpp/discussions/4167 简单粗暴的推理速度公式计算就是:同样的量化,14B 速度不到 7B 的 1/2 ,70B 的速度不到 7B 的 1/10 |
8
heyjei 94 天前
在 mac 上面,你们是怎么跑大模型的?用 ollama 吗?
|
9
wangshushu 94 天前 via Android
AMD 7840hs ,32G 内存,分配 8G 显存,跑 14B 能用的状态,所以 24G 跑 14B 应该问题不大,7B 很轻松了
|
11
alexmy 94 天前
2018 16G mbp 还在服役中,也想换个,瞧瞧 m4 出来后什么情况。
|
12
graetdk 94 天前
18G 的 M3 ,ollama 跑所有的 10B 以下的模型都很爽,而且感觉够用
|
13
mumbler 94 天前
gemma2 9B 能打 qwen1.5 110B ,M 芯片下能跑到 20+token 的速度,且中文支持很好
可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包,支持 mac ,自带 ollama+图形界面+知识库 |
14
234ygg 94 天前 via iPhone
gemma2 9b 勉强能跑的水平吧?但效果很差,满嘴胡言乱语 也就仅适合做做翻译。。
效果应该比我 4090 好点,4090 跑这玩意功耗 250W 简直爆炸,最烦的是电感在那丝丝叫。 做翻译那还不如直接用 gpt4o ,四舍五入不要钱 |
15
yinmin 94 天前 via iPhone
个人在本地部署跑 9b 、14b 实用价值不大,也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计(个人使用),功能远超开源小模型。
目前企业(尤其是涉密单位)在内网部署小模型,做些文字审查、文字格式提炼的专项业务比较实用。 |
16
bugcreator 94 天前 via iPhone
32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明
|
17
ZiM77FAp328moIuB 94 天前 via iPhone
最近在纠结 买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块)
|
18
murmur 94 天前
如果没有研究或者折腾的打算,买付费商业大模型更划算
|
19
kzzhr 94 天前 via Android
m 几呀? 3t/s 感觉像是没走 GPU ,可以看下监控
|
20
lairdnote 94 天前
macbook. 32G. 跑 gemma2b 还可以
|
22
xing7673 94 天前
@unidotnet llm 推理内存很好算,q4 约等于当前参数/2=内存,比如 14b 应该是 7g 内存左右。
以此类推 q8 14b=14g f16 14b=28g 还需要加一些推理机制内存,不过大抵可以这么推算。 建议先自己运行检查一遍 |
23
wingerwwang 94 天前 via iPhone 1
m1max 32g 跑 llama3.1 7B 效果不错,6g 内存上下。效果比我试过的其他几个 13B 都要好。
|
24
beyondsoft 94 天前
建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s
|
25
8355 93 天前
只能跑小模型吧。。大模型好像要内存拉满了
|
26
unidotnet 91 天前
@xing7673
@neteroster @ChipWat @Attenton 计算模型要多少内存没问题,我是个人使用经验。但 mac 共享内存,总不见得啥别的系统开销都不要吧,纯命令行裸写一堆 json 去交互。。。 跑模型把别的应用都关了就没啥实用价值。再多做点,开始 embed , 比如跑点 neo4j 什么的是吧,界面要有个吧,跑个 docker ,web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理,GPU full ,内存虽然 64G 没用满,但是基本在 40 几 G , 除非 pumas 命令显示不正确。 |