目前性价比最高的跑本地大模型显卡是？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 331 days ago, the information mentioned may be changed or developed.

RTX 3090 Ti

本地大模型

高性能

18 replies • 2025-08-16 12:45:42 +08:00

ihainan

Jun 5, 2025

多大的模型。

atom42

Jun 5, 2025

mac mini ?

lemonTreeTop

Jun 5, 2025

@ihainan 效果比较好的

lemonTreeTop

Jun 5, 2025

@ihainan 比如可以跑 gemma3 27b

coefu

Jun 5, 2025

在线 api 。

Greendays

Jun 5, 2025

不考虑改装显卡的话，4060ti 16G ？或者 3060 12G ？不过这些都跑不了 32B 模型，撑死了 14B 。Mac mini 用 36G 统一内存能跑 32B 模型，但是速度据说很慢的。

xziar

Jun 5, 2025

来两张 16G 的卡开 TP 跑呗，4bit 能开很长的上下文了

chen1210

Jun 5, 2025

gemma3 27b 啊。M4Pro 吧

defaqman

Jun 5, 2025

4080 我感觉挺不错的，显存以及性能都不错

murmur

Jun 5, 2025

本地大模型纯玩具啊，量化模型效果差的 1b ，不如去买 api ，还是画画涩图，处理下音乐提取个伴奏靠谱点

但是人家也是 NV+win 就是一键包，什么环境不需要双击就用，mac 对不起自己折腾代码去吧

lemonTreeTop

Jun 5, 2025

好家伙🤭，标签给推荐了 3090 ，查了下是 24G 显存，能跑 gemma3 27b 量化版本

woojanelook

Jun 5, 2025

魔改的 2080ti 22g 2000 多，应该是最便宜的单张显存，刚好够跑 flux 模型

YsHaNg

Jun 5, 2025 via iPhone

@murmur 公司禁止使用 public provider 并且个人文档经常需要召回护照号之类的还是算了 ollama run 一下也没啥难的发现中美真的非常喜欢调 api

irrigate2554

Jun 5, 2025

@lemonTreeTop 2080ti 22G 不仅可以跑，还快，上下文还多

mumbler

Jun 5, 2025

2080 ti 22G 没有之一，2500 元左右，支持 nvlink 两块并联 44G

mumbler

Jun 5, 2025

@murmur #10 这个观点已经非常落后了，本地有本地的场景，比如合同审核，本地用 qwen3 30B 都做得非常好了，纯 CPU 就能流畅运行，哪个公司的合同敢传云端 API 去处理

CoffeeY

Jun 11, 2025

纯显卡层面说的话，性价比高的应该是 2080ti 22G 了，还可多卡 nvlink

goodboy95

Aug 16, 2025 via Android

@murmur 一年前就有非纯玩具的模型了，基于 qwen 2.5 32B 微调的 sakura 翻译模型，翻译日本轻小说这方面是真不错，个人感觉虽然肯定比不上真人，也时不时搞错人称代词，但至少比 gpt-4o 要明显地强。
如果一部小说等不到人工翻译的话，这模型就相当够用了。