![]() |
1
scys 3 天前
只要 170w 就能跑 671b 也是牛
|
![]() |
2
wsping 3 天前 via iPhone
太贵了,玩不起
|
![]() |
3
felixcode 3 天前 via Android
以前:谁没有个 gpu 服务器,谁还本地跑模型
现在:苹果牛 B ! |
![]() |
4
aptupdate 3 天前 via iPhone
性价比最高的一集。
|
![]() |
5
LanhuaMa 3 天前 ![]() 你拿买这个 macstudio 的价格去充 deepseek api ,按照目前平均 60 token/s 的速度可以持续不间断跑 19 年,整。
20649usd / (0.035 + 0.550) * 1M / 60 / (3600*24*365) |
![]() |
8
laikick 3 天前
4bit 量化.. 几乎没啥用啊
|
9
mmmeeexxa 3 天前
目前翻译好像是 4o-mini 性价比最高了? 有没有本地部署过的,本地翻译模型有哪些?
|
![]() |
10
cheng6563 3 天前
4bit 全量
|
![]() |
11
wclebb 3 天前
我观察一些网友对 Mac 的想法有点奇怪。
我就问一下,按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 2080Ti 魔改显卡交火配置 8 卡电脑?还是上百万的 H100 Nvidia 专业显卡服务器? 4Bit 精度量化部署本地的情况下只能唯一可选。 为什么?因为没有 8Bit 或 16Bit 公开。 ( 8Bit 应该能跑,但也太极限了) 我估计 70B 按 8Bit 也能跑? DeepSeek 为何成功?是因为它降低了成本。 更有可能搭载在部署本地上跑。也使其在 Mac 上搭建更为可能。 |
12
FarmerChillax 3 天前
@LanhuaMa 但这样你就只能跑 Deepseek 了,买电脑肯定不是为了单一需求
|
![]() |
14
neteroster 3 天前 via Android
@wclebb
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md 0.3-preview, 6454S×2, 4090D, D5-4800 pp~250, tg~12 ,我没记错的话这个 pp 远超 m3u ,tg 差些 更好的硬件: https://zhuanlan.zhihu.com/p/30079534043 |
![]() |
15
wclebb 3 天前
@tanrenye 所以这是可选项,你当然可以买云服务器超强性能,然后自行买 Mac mini ,也可以的。
我说的是它能提供这个搭建的可能。 退一步讲,Mac 128G 能搭建 70B 就能足够满足使用的情况下,也没多少 70B 显卡能跑的吧? 所以我说的是:它能做,在一定预算内可选。 普通人有钱买 67K 块 Mac 512G ?也不是没可能。 |
16
mumbler 3 天前
不用追求满血,年底 32B 就能达到 671B 水平,现在已经很接近了
|
17
hiiragiharunatsu 3 天前
512g 内存上下文开不了太大 和在线版质量仍然有显著差距 不知道使用两到三台 macstudio 是否能支持更大上下文 但是对中小企业绝对是利好
|
18
swmjjy 3 天前
@wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
你没去了解=没有 |
![]() |
19
wclebb 3 天前
@swmjjy 所以我说的是提供这个搭建 672B 4Bit 设备的可能。
至于 API 还是美团上能不能点个外卖还是什么 8Bit ,我就想问问,「按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 」你扯 API 云的是为了想答赢我吗? 好,你赢了。 —————— 承认这个 Mac 能跑 672B 有多难? |
20
dilidilid 3 天前
很好,但确实没啥用。不然英伟达最近跌掉的市值应该涨在苹果上
|
21
swmjjy 3 天前 ![]() @wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上
|
![]() |
23
wclebb 3 天前
|
![]() |
24
feikaras 3 天前
问题是 4bit 量化啊。这又不值得说道。你都付了十万块了,还不能跑那才是笑话。
|
25
zeyangstudies 2 天前 ![]() @LanhuaMa 但是人家是私有化部署的,这个是关键呀~
|
![]() |
26
june4 2 天前
@wclebb PC 只要不到 4w, 且是 8bit, 8bit 比 4bit 强出太多根本不是一个级别
https://mp.weixin.qq.com/s/vIrvbVJ6Nv00Ehre1zZwMw |
28
mXw 2 天前
这个价格 我不如直接去买 api
|
![]() |
29
WuSiYu 2 天前
个人玩真不适合玩这么大的 moe 模型。。。有多少钱都浪费在存这些参数上了,而人家云端至少几百张卡一组跑混合专家并行,平均下来能把成本优化到跟只跑跟激活的参数一样大小的模型( 21B )差不多
|
30
MacsedProtoss 2 天前 via iPhone
@june4 然而这个方案的 token 速度很差啊…
|
![]() |
31
showonder 2 天前
等年底或明年 500b 的开源大模型是不是性能能逼近 GPT4.5 了?
|
![]() |
32
ssbg2 1 天前
@MacsedProtoss 有成本限制啊,之前是没什么好办法,现在这个(包括 MAC STUDIO 方案)是可用。
|
33
niubilewodev 1 天前
17-18 token/s 在带思考链的模型上,算勉强能用。
就是不知道上下文多了之后,prefill 时间怎么样。 |
![]() |
34
beginor 1 天前 via Android
Mac 跑文本和多模态大模型推理还行,但是如果要跑 comfy ui+多媒体生成的话,还是得 N 卡。
|