V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
lemonTreeTop
V2EX  ›  Local LLM

目前性价比最高的跑本地大模型显卡是?

  •  
  •   lemonTreeTop · Jun 5, 2025 · 3466 views
    This topic created in 331 days ago, the information mentioned may be changed or developed.
    18 replies    2025-08-16 12:45:42 +08:00
    ihainan
        1
    ihainan  
       Jun 5, 2025
    多大的模型。
    atom42
        2
    atom42  
       Jun 5, 2025
    mac mini ?
    lemonTreeTop
        3
    lemonTreeTop  
    OP
       Jun 5, 2025
    @ihainan 效果比较好的
    lemonTreeTop
        4
    lemonTreeTop  
    OP
       Jun 5, 2025
    @ihainan 比如可以跑 gemma3 27b
    coefu
        5
    coefu  
       Jun 5, 2025
    在线 api 。
    Greendays
        6
    Greendays  
       Jun 5, 2025   ❤️ 1
    不考虑改装显卡的话,4060ti 16G ?或者 3060 12G ?不过这些都跑不了 32B 模型,撑死了 14B 。Mac mini 用 36G 统一内存能跑 32B 模型,但是速度据说很慢的。
    xziar
        7
    xziar  
       Jun 5, 2025
    来两张 16G 的卡开 TP 跑呗,4bit 能开很长的上下文了
    chen1210
        8
    chen1210  
       Jun 5, 2025   ❤️ 1
    gemma3 27b 啊。M4Pro 吧
    defaqman
        9
    defaqman  
       Jun 5, 2025
    4080 我感觉挺不错的,显存以及性能都不错
    murmur
        10
    murmur  
       Jun 5, 2025
    本地大模型纯玩具啊,量化模型效果差的 1b ,不如去买 api ,还是画画涩图,处理下音乐提取个伴奏靠谱点

    但是人家也是 NV+win 就是一键包,什么环境不需要双击就用,mac 对不起自己折腾代码去吧
    lemonTreeTop
        11
    lemonTreeTop  
    OP
       Jun 5, 2025
    好家伙🤭,标签给推荐了 3090 ,查了下是 24G 显存,能跑 gemma3 27b 量化版本
    woojanelook
        12
    woojanelook  
       Jun 5, 2025   ❤️ 1
    魔改的 2080ti 22g 2000 多,应该是最便宜的单张显存,刚好够跑 flux 模型
    YsHaNg
        13
    YsHaNg  
       Jun 5, 2025 via iPhone
    @murmur 公司禁止使用 public provider 并且个人文档经常需要召回护照号之类的还是算了 ollama run 一下也没啥难的 发现中美真的非常喜欢调 api
    irrigate2554
        14
    irrigate2554  
       Jun 5, 2025   ❤️ 1
    @lemonTreeTop 2080ti 22G 不仅可以跑,还快,上下文还多
    mumbler
        15
    mumbler  
       Jun 5, 2025
    2080 ti 22G 没有之一,2500 元左右,支持 nvlink 两块并联 44G
    mumbler
        16
    mumbler  
       Jun 5, 2025
    @murmur #10 这个观点已经非常落后了,本地有本地的场景,比如合同审核,本地用 qwen3 30B 都做得非常好了,纯 CPU 就能流畅运行,哪个公司的合同敢传云端 API 去处理
    CoffeeY
        17
    CoffeeY  
       Jun 11, 2025
    纯显卡层面说的话,性价比高的应该是 2080ti 22G 了,还可多卡 nvlink
    goodboy95
        18
    goodboy95  
       Aug 16, 2025 via Android
    @murmur 一年前就有非纯玩具的模型了,基于 qwen 2.5 32B 微调的 sakura 翻译模型,翻译日本轻小说这方面是真不错,个人感觉虽然肯定比不上真人,也时不时搞错人称代词,但至少比 gpt-4o 要明显地强。
    如果一部小说等不到人工翻译的话,这模型就相当够用了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2596 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 14:08 · PVG 22:08 · LAX 07:08 · JFK 10:08
    ♥ Do have faith in what you're doing.