想折腾一个 AI 主机，请行家出手

davidyin · 2026-05-09T17:02:50Z

打算自组一 AI 主机，用于本地 llm 。可用于 kiro IDE 的，gitlab duo 。可行性有多大，能否代替订阅的那些 ai 服务？配置有没有推荐的，各 AI 行家请出手相助。

AI

主机

本地

67 replies • 2026-05-10 23:40:51 +08:00

1

qfdk

PRO

23h 20m ago via iPhone

看了明矾系列的到现在没下手... 要不要等等 mac mini ？说不定有新科技？本来打算买 m4 ，后来一拉配置，直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧

2

qfdk

PRO

23h 20m ago via iPhone

看了明矾系列的到现在没下手... 要不要等等 mac mini ？说不定有新科技？本来打算买 m4 ，后来一拉配置，直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧

3

yusf

23h 16m ago

老老实实买用 api 吧

4

davidyin

OP

23h 15m ago via Android

@yusf
订阅很方便，只是有洁癖，不想自己的东西暴露到外面。

希望都在局域网内。

5

yusf

23h 10m ago

@davidyin https://www.bilibili.com/video/BV1zmSoBnEYM 看下这个 up 的本地部署体验

6

davidyin

OP

23h 5m ago via Android

@yusf

Mac 不考虑。基本没有用苹果的产品。
对于性价比敏感。

7

davidyin

OP

22h 53m ago via Android

现在有个初步的配置清单：
RTX 4070 SUPER 12GB
Intel i5 14600K
Asus TUF B760
DDR5 32GB(2*16gb)
SSD 1TBx2
看看合适吗？

8

AastroLula

22h 39m ago

2

还是考虑买 api 吧,当然实在有钱可以折腾玩玩,如果 op 是需要正式干活可能 anthropic 博客里提的用聪明的大模型指导小模型是个算是能用的方案,但是这块一来需要折腾很久,二来还是得买外面的 api. 我之前也是想搞本地大模型折腾玩玩,后来发现纯粹是垃圾佬的馋瘾上来了,再说现在啥都涨价的买了也是大冤种,如果 op 想买 aimax 395 算是个选择吧,当然有特殊需求部署几 b 模型能用上也是好事,12g 显存骗骗哥们还行,别把自己骗了,以上是我的一点想法

9

devzhangyu

22h 33m ago

可以看看这个项目 https://github.com/AlexsJones/llmfit

1. 找出你的硬件能运行哪些模型
2. 估算某个模型配置需要什么硬件
3. 硬件模拟，可查看哪些模型适合目标硬件

10

ntedshen

22h 26m ago

2

降价期间屯硬件，那 bro 你很勇哦（

4070s 有没有 4060ti 好使我不知道。。。
但是 14600k 和 d5 的意义在哪？

11

Livid

MOD

PRO

22h 25m ago

1

@davidyin 瓶颈是显存。

可以看一下 DGX Spark 系列的产品。

12

davidyin

OP

21h 2m ago via Android

@Livid
这个超出预算了。就我的使用情况，估计太大才小用了。

@AastroLula
订阅过 kiro 的那些模型。挺好用，只是不想把自己丑陋的代码上传上去，才想着全部在本地。
是啊，配件涨价太多。的确有些下不去手。

@ntedshen
Intel CPU 和 DDR5 是也不是一定，你有好的建议欢迎提出来。

@devzhangyu
谢谢推荐，我去看看。

13

iango

20h 25m ago

@davidyin 再等等，技术升级太快了。
看看这个：
https://github.com/antirez/ds4

128M Apple MBP 跑 DeepSeek V4 Flash

14

viskem

20h 14m ago

64G M4 MacMini 循环跑 DeepSeek V4 Pro 中，MLX 31B 27B 啥的放那一堆都停用了。
是的，不如买个 AIR ，走到哪 Vibe 到哪……

15

luodan

18h 52m ago

就看显存大小，其它可以全部忽略。要么独立显卡，要么统一内存。

16

davidyin

OP

17h 35m ago via Android

@luodan
大显存重要，GPU 级别低一点，问题不大？

17

gtchan13579

17h 4m ago

Intel Arch B50 16G
铭瑄 H610I
Ultra 230F
DDR5 5600 16G*2
差不多就可以了

18

MrLonely

16h 20m ago

1

@davidyin 显存大小决定能不能跑，GPU 高低决定跑得快慢。

19

zzutmebwd

16h 14m ago via Android

2

5 万以内无法替代 minimax deepseek-v4-flash 这种比较蠢的国产，20 万以内无法代替 glm 这种比较比较聪明的国产，无论花多少钱都无法达到 gpt5.5 和 opus4.7 这种顶尖的。
如果你的厌蠢症胜过受迫害妄想症，用订阅。

20

bzw875

15h 40m ago

除了为了学习本地训练 AI ，买大显存电脑用来推理的都不是划算。就和买 deepseek 一体机一样鸡肋

21

restkhz

15h 39m ago

4

@davidyin 我不专业，但是有些经验你可以参考：

12G 显存太小了，完全完全地不推荐。小的模型完全能跑，甚至跑挺快，但模型本身太小鸡肋无用，能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ，12G 显存，算力带宽都没问题但是生产力相关的基本什么都跑不了。

另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ，我有一台，请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好，密集模型速度很慢，比如 Qwen3.6 27B ，不错的模型，但是跑推理大概 10t/s 不到，非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善，最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑，但是经常让我觉得不如高精度的 Qwen3.6 35B 。

还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快，能跑是都能跑，就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑，但问题是很多东西跑不快...

精度也很重要，我不觉得 Q4 量化真的好用。能跑归能跑，但是回答模棱两可，幻觉多，不建议用于生产。为了生产有条件建议 Q6 起步。

说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服，但是你要跑编码我真不建议。
如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点，过一年再看看模型能力提高，硬件会不会降价。不然你的钱就是打水漂的。

我只是踩过坑，请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说，它具备这个能力罢了。
我是之前有搞信息安全上的需要，我不得不用 abliterated 模型才搞的...

22

csunny

15h 27m ago

5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。

23

csunny

15h 26m ago

@csunny 纠正一下，是 64G ddr5

24

2000wcw

15h 2m ago

为啥大家都不支持 PO 主？我倒觉得应该大力支持一下，然后 PO 主真金白银花了后说一下实际感受，这样我们才好避坑。

25

bytesfold

14h 55m ago via iPhone

我的建议直接 rtx pro 6000 ，不好用直接出掉

26

frankies

14h 51m ago

@davidyin #7 4070 部署不了大模型，部署量化后的阉割模型也费劲，推理慢不说还智障。提升不了预算就用 api ，钱包会告诉你并不洁癖

27

cin

14h 42m ago

1

你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的，先建议找个对应的 api 尝试下
另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b

28

tcper

14h 34m ago

如果你真想跑 LLM ，显存顶到最高就行，不过就怕又来一句，也想玩玩 3A 游戏

29

whusnoopy

14h 23m ago

1. 预算多少？上可到 512G 的 M3 Ultra 的 Mac Studio ，或 128G 的 nVidia DGX Spark
2. 是否专用用途，还是日常还可娱乐游戏？专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡，日常还要娱乐游戏那就要选大显存的游戏卡了
3. 性能期望？要能跑大参数模型，就得显存大，这时候 Mac 这样的统一内存就有优势，但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡，但显存可能不够大，不够加载更大参数的模型

30

zls3201

13h 57m ago

@davidyin cpu 高了显卡我觉得 5060ti 16G 可能比你这个好

我最近看 reddit ，很多用 unsloth/Qwen3.6-35B-A3B 量化版本的，有内存 8g 都用起来的

31

smlcgx

13h 54m ago

如果你玩本地推理的话，M3 ultra 确实是必备选项之一，电费账单是一笔隐藏开支，尤其是长期下来

32

davidyin

OP

13h 14m ago via Android

诸位快把我劝退了。

@zzutmebwd
没用过国产的。也只用过 kiro 订阅的几种。

@bzw875
不训练，只是推理。

@restkhz
你的经验非常有用，谢谢这么详细的回复。那就是 16g 显卡还是可以用用的意思喽？

@2000wcw
别这样，我很听劝的。本来也不是用来谋生，只是爱好者。

@frankies
也不是那么洁癖，主要担心一不小心把什麽密钥啊，API 溜出去。

@cin
这个建议好，我去试试。

@tcper
玩游戏也想过，不过我的 Xbox series x 也刚买不久。

33

davidyin

OP

12h 57m ago via Android

@whusnoopy
目前的预算在两千美元，再多就感觉自己不配用这么贵的东西了。

@smlcgx
电费的话，应该不用二十四小时开机的话，还好吧。之前用过 r710 服务器，玩了一年，觉得厌了就出手了。

34

uprit

12h 38m ago

1

显卡俺在用双卡 2080ti-22GB ，总共 44GB 显存，主机还是 1151 的老平台。可以跑 qwen3.6-27B-Q4KM ，256K 上下文，推理速度大概 20T/s

35

alinwu05

12h 36m ago via Android

不划算，机器便宜了，LLM 不够聪明，没有意义啊，请一个小学生干活当然便宜，但是干不了活也不中呀

36

maolon

12h 26m ago

楼上提议的挺好的，
另外 qwen3.6:27b gemma4:31b 像这个等级的模型只能算是可用，能拿来干些像是数据清洗，小代码库编程，或者是指令非常明确的 computer use 这种 agentic flow ，或者随便写点文案，性能大概相当于去年 100B 级别的模型

跟现在的旗舰或者次旗舰模型还是差很远的（尤其是现在各家都开始往 1T 到几 T 的参数量发展），对本地模型的期望还是要明确的好

37

Kevin2

12h 20m ago via Android

同蹲方案，我也有这想法。另外再玩虚拟化系统，多开几个电脑玩

38

Moonkin

12h 11m ago via Android

@davidyin 12g 来搞笑的？臭打游戏的都看不上。3090 都比这强，显存直接觉得模型能不能用。32G 的改装卡/更大的走私卡如果不想要，那就 5090d ，或者 API 等 60 系。

39

HojiOShi

11h 40m ago

lz 这帖子提醒我一件事，我有一台双 A770 的机器吃灰有点久了，现在想再看看 LLM 性能提升了多少。

40

ntedshen

11h 26m ago

@davidyin ddr4 目前是 ddr5 的半价，而且 14k 口碑并不怎么样。。。你可以在加钱或者减钱里面选（
你不如抄个入门级学生打游戏配置单，然后显卡换自己的。。。

41

taotaodaddy

11h 11m ago

用于本地 llm ✅
代替订阅 ❌

42

taotaodaddy

11h 10m ago

因为你会发现家用主机上的本地模型，蠢得惊人

43

j1132888093

10h 53m ago

本地部署能代替订阅的模型，那价格得过百万人民币吧

44

tootfsg

10h 29m ago via Android

@davidyin 用 12g 显存跑本地 llama.cpp ？这是真的吗，我 16g 显存都不够，像 26b 27b 这种 q4km 都 15,16g 了，1,2g 给上下文要极致压缩 kv 类型和特别低的上下文

45

coefu

10h 10m ago

1

@davidyin #33 真正的行家来告诉你，2000$的方案。

amd epyc 单路 9004 12 通道 ddr5 主板，目前大概 4000 。12 通道全插满 4800 MT/s DDR5 内存时，12 个通道的总带宽约为 500GB/s 以上。使用更高频率（如 6400 MT/s ）的内存时，理论总带宽可达到约 614 GB/s 。几乎摸到了 hbm2 的边。关键是容量可伸缩。

ddr5 6400 16G 目前单条价格大概 700*12 ，8400

amd epyc 9124 cpu 目前大概 4000

总成本正好 2000$ 左右。

此时，你有 192G 内存（ Qwen3.5-122B-A10B ，这种都能跑），带宽 500 ～ 614G 左右，500G 的带宽足够让你跑 MOE ，20 ～ 25 token/s ，再加一块几百块的 16G hbm2 gpu ，完全够。

46

huaweii

10h 3m ago via Android

个人本地 llm 能做的事情和 vibe coding 两回事😅 性价比敏感还在这浪费钱呢，建议问一下 AI 一些基本的常识

47

version

9h 50m ago

本地就算了.如果真能行.ai 行业的股价缩水到 1/10
差距就像你骑单车去拉萨..别人坐飞机去的

48

drafter

9h 49m ago

1

昨天刚买的主机跟你一样，5060ti 16G 显存 +96G 内存，270kcpu ，场景家里主机挂着，公司电脑通过 tailScale 连接跑 qwen3.6-35B-A3B ，开启思考模式会比较慢，跟官方 api 比，3 ～ 5 分钟吧，我后面把思考模型关了会快点，但是像一个小的项目用 claude 进行/init 要处理 10 多分钟，如果非编程用 Lm studio 对话框对话很快，输出 40t/s ，还在研究怎么在 coding 下推理速度加快

49

davidyin

OP

9h 46m ago via Android

@huaweii

这个配置就是问的 chatgpt, copilot 和

50

davidyin

OP

9h 45m ago via Android

Gemini 得到的。
我想还是问问活人更可靠，毕竟这里高手多。

51

davidyin

OP

9h 43m ago via Android

@drafter
所以可行，就是慢。对吗

52

aklllw

9h 28m ago

这个价位的跑起来的 AI...送我跑龙虾我都嫌弃
大概就这个性价比吧，无意攻击，只是给个参考

53

drafter

9h 3m ago

1

@davidyin 对的 https://benchlm.ai/coding 可以看这个模型 coding 能力排行榜，Qwen3.6-27B 排名 19 ，比很多的收费模型都强，但是这个量化版也要 24G 显存以上才行，4090 ，5090 太贵，3090 矿卡风险高，Qwen3.6-35B-A3B 排名 30 ，基本上觉得大多工作都能做，我上午开始试的，效果可以，至少做同样的事比 minimax 2.7 显得专业很多，还是稀疏模型，一些权重可以放内存里，但是推理慢，这个很关键，同样的问题 trae 里的 minimax 2.7 大该 1 分钟，这个模型我用 claude 大概 11 分钟。。。反正未来 20B ，30B 模型在消费级显卡上的效果应该会越来越好，可以观望下

54

hao150

8h 59m ago

别买 A U 就对了，反正我现在这个 A U 带的 NPU ，买的时候说能力多好，实际用的时候没几个应用适配的。哪怕跑个视频转码都调不动 NPU

55

pxlxh

8h 53m ago

你这个预算和你要求的隐私性本身就是矛盾的
订阅就行了无人在意

56

davidyin

OP

8h 44m ago via Android

@pxlxh

说了，我在意。自己的东西自己在意。

57

smlcgx

8h 5m ago

1

@davidyin 其实最后还是落实到需求，看你是想玩一玩还是想作为生产力。前者的话随便一个主机和显存吃得下的 int 之类的模型就可以了，只是聪明程度差一些。后者你想作为 api 的替代，就要认真选型了，没个几万入场费就不要想了，这些钱还不如买个正规 api

58

hanli

7h 30m ago

1

前面研究过这个问题，新配显卡的话显存至少考虑 24G 以上，不然模型效果都比较一般。现在用的 12G 的 3080ti ，都跑 QWEN Q4 量化模型，跑 27b 稠密架构的基本用不了，35b 的 moe 架构勉强能用下。

59

sn0wdr1am

6h 38m ago

劝退劝退。

电费不要去，显卡不要钱。

本地搭建根本不划算。

60

cs8425

5h 12m ago

1

刚好手上有 4070S 跟 9060xt, 最近也在尝试这块
先说结论:
12G 显存完全不够用
16G 也只是勉强能动
拿去辅助编程不是智商太低就是速度太慢
要嘛买更好的卡, 不嘛就 api 算了

我只测了 gemma-4-E2B Q4 、gemma-4-E4B Q4 跟 gemma-4-26B Q4 (MoE 类型)
4070S 跑 E4B 没啥问题, 速度大概 90t/s, 26B 就完全不行了
9060xt 跑 E4B 大概 60t/s, 26B 能动但最高只有 20t/s 通常在 15~19 之间
用的是 llama.cpp, backend vulkan
E4B 辅助编程错误很多, 要一直叫他修正
26B 错误是少很多, 勉强算堪用吧, 但运行太慢, 结果最后总花费时间跟 E4B 多轮差不多....
虽然不排除目前对 gemma 4 系列的支持不是很好/有 bug 就是了

跑 SDXL 的话
4070S 速度大概是 9060xt 的 1.7~2 倍 (1536x1024 一个 45 秒一个 80 秒)
但解析度/模型大一些就先炸了