V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CoffeeLeak
V2EX  ›  Local LLM

折腾 Llama3 跑在 NAS...结果确实一言难尽

  •  
  •   CoffeeLeak · 238 天前 · 2425 次点击
    这是一个创建于 238 天前的主题,其中的信息可能已经有所发展或是发生改变。

    链接: https://github.com/ansonhe97/Llama3-NAS

    Llama3-NAS

    前几天简单折腾 Llama3 跑在 NAS 上,结果确实也和预期一样,卡成...

    分享下 docker 配置,也希望后续大模型会往边缘端发展,让 NAS 发光发热!

    6 条回复    2024-05-04 13:51:26 +08:00
    vicalloy
        1
    vicalloy  
       238 天前   ❤️ 1
    除非要做 RAG ,或用自己的知识库进行二次训练,不然本地跑 chatGPT 没有太大意义。
    试了一下 16fp 的 7B 模型,效果不太行。
    另外一定要 GPU ,CPU 慢的无法接受。
    xJogger
        2
    xJogger  
       237 天前
    3060 6G 笔记本 用 ollama 跑 Llama3 8B 的,还挺流畅
    不过就试了几轮对话,没尝试太多轮
    shuimugan
        3
    shuimugan  
       237 天前
    CPU 跑大模型推理瓶颈就是在内存带宽,按 ddr4 双通道内存带宽为 30GB/s 的速度来算,7B 规格的 8bit 量化,也就 4 token/s 左右的速度,4bit 量化就速度 x2 ,14B 规格就速度除以 2 ,偏差不会太大。
    lchynn
        4
    lchynn  
       237 天前
    @xJogger 3060 跑 LLAMA3-8B, 平均每秒多少 token 生成速度啊?谢谢,想了解下性能? OLLAMA /SET VERBOSE 麻烦测一下看看?
    xJogger
        5
    xJogger  
       237 天前   ❤️ 1
    lchynn
        6
    lchynn  
       237 天前
    @xJogger 谢谢, 那看来日常够用了。不知道综合能力对比 Qwen1.5 7B 如何。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5504 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 08:52 · PVG 16:52 · LAX 00:52 · JFK 03:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.