V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
davidyin
40.35D
13.67D
V2EX  ›  Local LLM

想折腾一个 AI 主机,请行家出手

  •  
  •   davidyin · 23h 26m ago via Android · 3335 views
    打算自组一 AI 主机,用于本地 llm 。 可用于 kiro IDE 的,gitlab duo 。


    可行性有多大,能否代替订阅的那些 ai 服务?

    配置有没有推荐的,各 AI 行家请出手相助。
    Supplement 1  ·  8h 47m ago
    我把同 copilot 讨论的,以及这里的答复交给它。

    分享给大家看看。
    https://copilot.microsoft.com/shares/JboxwuxJm4jZRAK8Sqjkd
    67 replies    2026-05-10 23:40:51 +08:00
    qfdk
        1
    qfdk  
    PRO
       23h 20m ago via iPhone
    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
    qfdk
        2
    qfdk  
    PRO
       23h 20m ago via iPhone
    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
    yusf
        3
    yusf  
       23h 16m ago
    老老实实买用 api 吧
    davidyin
        4
    davidyin  
    OP
       23h 15m ago via Android
    @yusf
    订阅很方便,只是有洁癖,不想自己的东西暴露到外面。

    希望都在局域网内。
    yusf
        5
    yusf  
       23h 10m ago
    @davidyin https://www.bilibili.com/video/BV1zmSoBnEYM 看下这个 up 的本地部署体验
    davidyin
        6
    davidyin  
    OP
       23h 5m ago via Android
    @yusf

    Mac 不考虑。基本没有用苹果的产品。
    对于性价比敏感。
    davidyin
        7
    davidyin  
    OP
       22h 53m ago via Android
    现在有个初步的配置清单:
    RTX 4070 SUPER 12GB
    Intel i5 14600K
    Asus TUF B760
    DDR5 32GB(2*16gb)
    SSD 1TBx2
    看看合适吗?
    AastroLula
        8
    AastroLula  
       22h 39m ago   ❤️ 2
    还是考虑买 api 吧,当然实在有钱可以折腾玩玩,如果 op 是需要正式干活可能 anthropic 博客里提的用聪明的大模型指导小模型是个算是能用的方案,但是这块一来需要折腾很久,二来还是得买外面的 api. 我之前也是想搞本地大模型折腾玩玩,后来发现纯粹是垃圾佬的馋瘾上来了,再说现在啥都涨价的买了也是大冤种,如果 op 想买 aimax 395 算是个选择吧,当然有特殊需求部署几 b 模型能用上也是好事,12g 显存骗骗哥们还行,别把自己骗了,以上是我的一点想法
    devzhangyu
        9
    devzhangyu  
       22h 33m ago
    可以看看这个项目 https://github.com/AlexsJones/llmfit

    1. 找出你的硬件能运行哪些模型
    2. 估算某个模型配置需要什么硬件
    3. 硬件模拟,可查看哪些模型适合目标硬件
    ntedshen
        10
    ntedshen  
       22h 26m ago   ❤️ 2
    降价期间屯硬件,那 bro 你很勇哦(

    4070s 有没有 4060ti 好使我不知道。。。
    但是 14600k 和 d5 的意义在哪?
    Livid
        11
    Livid  
    MOD
    PRO
       22h 25m ago   ❤️ 1
    @davidyin 瓶颈是显存。

    可以看一下 DGX Spark 系列的产品。
    davidyin
        12
    davidyin  
    OP
       21h 2m ago via Android
    @Livid
    这个超出预算了。就我的使用情况,估计太大才小用了。


    @AastroLula
    订阅过 kiro 的那些模型。挺好用,只是不想把自己丑陋的代码上传上去,才想着全部在本地。
    是啊,配件涨价太多。的确有些下不去手。


    @ntedshen
    Intel CPU 和 DDR5 是也不是一定,你有好的建议欢迎提出来。

    @devzhangyu
    谢谢推荐,我去看看。
    iango
        13
    iango  
       20h 25m ago
    @davidyin 再等等,技术升级太快了。
    看看这个:
    https://github.com/antirez/ds4

    128M Apple MBP 跑 DeepSeek V4 Flash
    viskem
        14
    viskem  
       20h 14m ago
    64G M4 MacMini 循环跑 DeepSeek V4 Pro 中,MLX 31B 27B 啥的放那一堆 都停用了。
    是的,不如买个 AIR ,走到哪 Vibe 到哪……
    luodan
        15
    luodan  
       18h 52m ago
    就看显存大小,其它可以全部忽略。要么独立显卡,要么统一内存。
    davidyin
        16
    davidyin  
    OP
       17h 35m ago via Android
    @luodan
    大显存重要,GPU 级别低一点,问题不大?
    gtchan13579
        17
    gtchan13579  
       17h 4m ago
    Intel Arch B50 16G
    铭瑄 H610I
    Ultra 230F
    DDR5 5600 16G*2
    差不多就可以了
    MrLonely
        18
    MrLonely  
       16h 20m ago   ❤️ 1
    @davidyin 显存大小决定能不能跑,GPU 高低决定跑得快慢。
    zzutmebwd
        19
    zzutmebwd  
       16h 14m ago via Android   ❤️ 2
    5 万以内无法替代 minimax deepseek-v4-flash 这种比较蠢的国产,20 万以内无法代替 glm 这种比较比较聪明的国产,无论花多少钱都无法达到 gpt5.5 和 opus4.7 这种顶尖的。
    如果你的厌蠢症胜过受迫害妄想症,用订阅。
    bzw875
        20
    bzw875  
       15h 40m ago
    除了为了学习本地训练 AI ,买大显存电脑用来推理的都不是划算。就和买 deepseek 一体机一样鸡肋
    restkhz
        21
    restkhz  
       15h 39m ago   ❤️ 4
    @davidyin 我不专业,但是有些经验你可以参考:

    12G 显存太小了,完全完全地不推荐。小的模型完全能跑,甚至跑挺快,但模型本身太小鸡肋无用,能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ,12G 显存,算力带宽都没问题但是生产力相关的基本什么都跑不了。

    另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ,我有一台,请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好,密集模型速度很慢,比如 Qwen3.6 27B ,不错的模型,但是跑推理大概 10t/s 不到,非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善,最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑,但是经常让我觉得不如高精度的 Qwen3.6 35B 。

    还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快,能跑是都能跑,就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑,但问题是很多东西跑不快...

    精度也很重要,我不觉得 Q4 量化真的好用。能跑归能跑,但是回答模棱两可,幻觉多,不建议用于生产。为了生产有条件建议 Q6 起步。

    说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服,但是你要跑编码我真不建议。
    如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点,过一年再看看模型能力提高,硬件会不会降价。不然你的钱就是打水漂的。

    我只是踩过坑,请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说,它具备这个能力罢了。
    我是之前有搞信息安全上的需要,我不得不用 abliterated 模型才搞的...
    csunny
        22
    csunny  
       15h 27m ago
    5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。
    csunny
        23
    csunny  
       15h 26m ago
    @csunny 纠正一下,是 64G ddr5
    2000wcw
        24
    2000wcw  
       15h 2m ago
    为啥大家都不支持 PO 主?我倒觉得应该大力支持一下,然后 PO 主真金白银花了后说一下实际感受,这样我们才好避坑。
    bytesfold
        25
    bytesfold  
       14h 55m ago via iPhone
    我的建议直接 rtx pro 6000 ,不好用直接出掉
    frankies
        26
    frankies  
       14h 51m ago
    @davidyin #7 4070 部署不了大模型,部署量化后的阉割模型也费劲,推理慢不说还智障。提升不了预算就用 api ,钱包会告诉你并不洁癖
    cin
        27
    cin  
       14h 42m ago   ❤️ 1
    你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的,先建议找个对应的 api 尝试下
    另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b
    tcper
        28
    tcper  
       14h 34m ago
    如果你真想跑 LLM ,显存顶到最高就行,不过就怕又来一句,也想玩玩 3A 游戏
    whusnoopy
        29
    whusnoopy  
       14h 23m ago
    1. 预算多少?上可到 512G 的 M3 Ultra 的 Mac Studio ,或 128G 的 nVidia DGX Spark
    2. 是否专用用途,还是日常还可娱乐游戏?专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡,日常还要娱乐游戏那就要选大显存的游戏卡了
    3. 性能期望?要能跑大参数模型,就得显存大,这时候 Mac 这样的统一内存就有优势,但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡,但显存可能不够大,不够加载更大参数的模型
    zls3201
        30
    zls3201  
       13h 57m ago
    @davidyin cpu 高了 显卡我觉得 5060ti 16G 可能比你这个好

    我最近看 reddit ,很多用 unsloth/Qwen3.6-35B-A3B 量化版本的,有内存 8g 都用起来的
    smlcgx
        31
    smlcgx  
       13h 54m ago
    如果你玩本地推理的话,M3 ultra 确实是必备选项之一,电费账单是一笔隐藏开支,尤其是长期下来
    davidyin
        32
    davidyin  
    OP
       13h 14m ago via Android
    诸位快把我劝退了。


    @zzutmebwd
    没用过国产的。也只用过 kiro 订阅的几种。

    @bzw875
    不训练,只是推理。


    @restkhz
    你的经验非常有用,谢谢这么详细的回复。那就是 16g 显卡还是可以用用的意思喽?

    @2000wcw
    别这样,我很听劝的。本来也不是用来谋生,只是爱好者。


    @frankies
    也不是那么洁癖,主要担心一不小心把什麽密钥啊,API 溜出去。

    @cin
    这个建议好,我去试试。

    @tcper
    玩游戏也想过,不过我的 Xbox series x 也刚买不久。
    davidyin
        33
    davidyin  
    OP
       12h 57m ago via Android
    @whusnoopy
    目前的预算在两千美元,再多就感觉自己不配用这么贵的东西了。




    @smlcgx
    电费的话,应该不用二十四小时开机的话,还好吧。之前用过 r710 服务器,玩了一年,觉得厌了就出手了。
    uprit
        34
    uprit  
       12h 38m ago   ❤️ 1
    显卡俺在用双卡 2080ti-22GB ,总共 44GB 显存,主机还是 1151 的老平台。可以跑 qwen3.6-27B-Q4KM ,256K 上下文,推理速度大概 20T/s
    alinwu05
        35
    alinwu05  
       12h 36m ago via Android
    不划算,机器便宜了,LLM 不够聪明,没有意义啊,请一个小学生干活当然便宜,但是干不了活也不中呀
    maolon
        36
    maolon  
       12h 26m ago
    楼上提议的挺好的,
    另外 qwen3.6:27b gemma4:31b 像这个等级的模型只能算是可用,能拿来干些像是数据清洗,小代码库编程,或者是指令非常明确的 computer use 这种 agentic flow ,或者随便写点文案,性能大概相当于去年 100B 级别的模型

    跟现在的旗舰或者次旗舰模型还是差很远的(尤其是现在各家都开始往 1T 到几 T 的参数量发展),对本地模型的期望还是要明确的好
    Kevin2
        37
    Kevin2  
       12h 20m ago via Android
    同蹲方案,我也有这想法。另外再玩虚拟化系统,多开几个电脑玩
    Moonkin
        38
    Moonkin  
       12h 11m ago via Android
    @davidyin 12g 来搞笑的?臭打游戏的都看不上。3090 都比这强,显存直接觉得模型能不能用。32G 的改装卡/更大的走私卡如果不想要,那就 5090d ,或者 API 等 60 系。
    HojiOShi
        39
    HojiOShi  
       11h 40m ago
    lz 这帖子提醒我一件事,我有一台双 A770 的机器吃灰有点久了,现在想再看看 LLM 性能提升了多少。
    ntedshen
        40
    ntedshen  
       11h 26m ago
    @davidyin ddr4 目前是 ddr5 的半价,而且 14k 口碑并不怎么样。。。你可以在加钱或者减钱里面选(
    你不如抄个入门级学生打游戏配置单,然后显卡换自己的。。。
    taotaodaddy
        41
    taotaodaddy  
       11h 11m ago
    用于本地 llm ✅
    代替订阅 ❌
    taotaodaddy
        42
    taotaodaddy  
       11h 10m ago
    因为你会发现家用主机上的本地模型,蠢得惊人
    j1132888093
        43
    j1132888093  
       10h 53m ago
    本地部署能代替订阅的模型,那价格得过百万人民币吧
    tootfsg
        44
    tootfsg  
       10h 29m ago via Android
    @davidyin 用 12g 显存跑本地 llama.cpp ?这是真的吗,我 16g 显存都不够,像 26b 27b 这种 q4km 都 15,16g 了,1,2g 给上下文要极致压缩 kv 类型和特别低的上下文
    coefu
        45
    coefu  
       10h 10m ago   ❤️ 1
    @davidyin #33 真正的行家来告诉你,2000$的方案。

    amd epyc 单路 9004 12 通道 ddr5 主板,目前大概 4000 。12 通道全插满 4800 MT/s DDR5 内存时,12 个通道的总带宽约为 500GB/s 以上。使用更高频率(如 6400 MT/s )的内存时,理论总带宽可达到约 614 GB/s 。几乎摸到了 hbm2 的边。关键是容量可伸缩。

    ddr5 6400 16G 目前单条价格大概 700*12 ,8400

    amd epyc 9124 cpu 目前大概 4000

    总成本正好 2000$ 左右。

    此时,你有 192G 内存( Qwen3.5-122B-A10B ,这种都能跑),带宽 500 ~ 614G 左右,500G 的带宽足够让你跑 MOE ,20 ~ 25 token/s ,再加一块几百块的 16G hbm2 gpu ,完全够。
    huaweii
        46
    huaweii  
       10h 3m ago via Android
    个人本地 llm 能做的事情和 vibe coding 两回事😅 性价比敏感还在这浪费钱呢,建议问一下 AI 一些基本的常识
    version
        47
    version  
       9h 50m ago
    本地就算了.如果真能行.ai 行业的股价缩水到 1/10
    差距就像你骑单车去拉萨..别人坐飞机去的
    drafter
        48
    drafter  
       9h 49m ago   ❤️ 1
    昨天刚买的主机 跟你一样,5060ti 16G 显存 +96G 内存,270kcpu ,场景家里主机挂着,公司电脑通过 tailScale 连接 跑 qwen3.6-35B-A3B ,开启思考模式会比较慢,跟官方 api 比,3 ~ 5 分钟吧,我后面把思考模型关了会快点,但是像一个小的项目用 claude 进行/init 要处理 10 多分钟,如果非编程 用 Lm studio 对话框对话很快 ,输出 40t/s ,还在研究怎么在 coding 下推理速度加快
    davidyin
        49
    davidyin  
    OP
       9h 46m ago via Android
    @huaweii

    这个配置就是问的 chatgpt, copilot 和
    davidyin
        50
    davidyin  
    OP
       9h 45m ago via Android
    Gemini 得到的。
    我想还是问问活人更可靠,毕竟这里高手多。
    davidyin
        51
    davidyin  
    OP
       9h 43m ago via Android
    @drafter
    所以可行,就是慢。对吗
    aklllw
        52
    aklllw  
       9h 28m ago
    这个价位的跑起来的 AI...送我跑龙虾我都嫌弃
    大概就这个性价比吧,无意攻击,只是给个参考
    drafter
        53
    drafter  
       9h 3m ago   ❤️ 1
    @davidyin 对的 https://benchlm.ai/coding 可以看这个模型 coding 能力排行榜,Qwen3.6-27B 排名 19 ,比很多的收费模型都强,但是这个量化版也要 24G 显存以上才行,4090 ,5090 太贵,3090 矿卡风险高,Qwen3.6-35B-A3B 排名 30 ,基本上觉得大多工作都能做,我上午开始试的,效果可以,至少做同样的事比 minimax 2.7 显得专业很多,还是稀疏模型,一些权重可以放内存里,但是推理慢,这个很关键,同样的问题 trae 里的 minimax 2.7 大该 1 分钟,这个模型我用 claude 大概 11 分钟。。。 反正未来 20B ,30B 模型 在消费级显卡上的效果应该会越来越好,可以观望下
    hao150
        54
    hao150  
       8h 59m ago
    别买 A U 就对了,反正我现在这个 A U 带的 NPU ,买的时候说能力多好,实际用的时候没几个应用适配的。哪怕跑个视频转码都调不动 NPU
    pxlxh
        55
    pxlxh  
       8h 53m ago
    你这个预算和你要求的隐私性本身就是矛盾的
    订阅就行了 无人在意
    davidyin
        56
    davidyin  
    OP
       8h 44m ago via Android
    @pxlxh

    说了,我在意。自己的东西自己在意。
    smlcgx
        57
    smlcgx  
       8h 5m ago   ❤️ 1
    @davidyin 其实最后还是落实到需求,看你是想玩一玩还是想作为生产力。前者的话随便一个主机和显存吃得下的 int 之类的模型就可以了,只是聪明程度差一些。后者你想作为 api 的替代,就要认真选型了,没个几万入场费就不要想了,这些钱还不如买个正规 api
    hanli
        58
    hanli  
       7h 30m ago   ❤️ 1
    前面研究过这个问题,新配显卡的话显存至少考虑 24G 以上,不然模型效果都比较一般。现在用的 12G 的 3080ti ,都跑 QWEN Q4 量化模型,跑 27b 稠密架构的基本用不了,35b 的 moe 架构勉强能用下。
    sn0wdr1am
        59
    sn0wdr1am  
       6h 38m ago
    劝退劝退。

    电费不要去,显卡不要钱。

    本地搭建根本不划算。
    cs8425
        60
    cs8425  
       5h 12m ago   ❤️ 1
    刚好手上有 4070S 跟 9060xt, 最近也在尝试这块
    先说结论:
    12G 显存完全不够用
    16G 也只是勉强能动
    拿去辅助编程不是智商太低就是速度太慢
    要嘛买更好的卡, 不嘛就 api 算了

    我只测了 gemma-4-E2B Q4 、gemma-4-E4B Q4 跟 gemma-4-26B Q4 (MoE 类型)
    4070S 跑 E4B 没啥问题, 速度大概 90t/s, 26B 就完全不行了
    9060xt 跑 E4B 大概 60t/s, 26B 能动但最高只有 20t/s 通常在 15~19 之间
    用的是 llama.cpp, backend vulkan
    E4B 辅助编程错误很多, 要一直叫他修正
    26B 错误是少很多, 勉强算堪用吧, 但运行太慢, 结果最后总花费时间跟 E4B 多轮差不多....
    虽然不排除目前对 gemma 4 系列的支持不是很好/有 bug 就是了

    跑 SDXL 的话
    4070S 速度大概是 9060xt 的 1.7~2 倍 (1536x1024 一个 45 秒一个 80 秒)
    但解析度/模型大一些就先炸了
    afkool
        61
    afkool  
       5h 1m ago via Android
    菜鸟想法(我自己)
    买 388h 或者 ai395max 128g 的跑推理
    需要训练了租云端练丹,不知道是否性价比可行?
    Dream4U
        62
    Dream4U  
       4h 30m ago
    能替代的话,A 家和 O 家不用活了
    WhatIf
        63
    WhatIf  
       4h 26m ago
    24G 的 3090 ,4090 之类 可以跑 30B 上下规模的模型,但是上下文很小, 项目大了估计就不行。
    但是感觉 32G 48G 的也好不了太多。
    那么只有 pro 6000 96G 显存 能全量跑 32B ,这两天狗东刚看了下价格, 有提供整机的,84000 左右
    kinghly
        64
    kinghly  
       4h 15m ago via iPhone
    本地成本太高了,而且现在发展太快了.
    Cheree
        65
    Cheree  
       2h 38m ago   ❤️ 1
    @davidyin 明显不合适,上了 D5 内存,结果还在搞 B760M+14600K,低预算新卡最合适的是 5060Ti 16G ,或者 5070Ti
    Nidhoggur
        66
    Nidhoggur  
       1h 43m ago
    @coefu 想问下 122B 的本地智商大概和 api 差多少?我本地只跑过 35B 的 qwen 3.5 Q4 ,酒馆用着都觉得降智
    dongfanga
        67
    dongfanga  
       1h 33m ago
    等 mac 新一代的 studio 最高配版,或者海外购 5090 双卡组建(不跑 llm 还能用来游戏),如果没有太大必要,直接调用 api 更实惠
    coefu
        68
    coefu  
       48 mins ago
    @Nidhoggur 母鸡,我也没这资源跑过这种大模型啊。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1582 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 193ms · UTC 16:29 · PVG 00:29 · LAX 09:29 · JFK 12:29
    ♥ Do have faith in what you're doing.