V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jingsam
V2EX  ›  问与答

求一套做大语言模型推理的机器配置

  •  
  •   jingsam · 303 天前 · 1119 次点击
    这是一个创建于 303 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想配一台电脑本地部署开源的大语言模型如 Llama 、ChatGLM 等,制作推理,不做训练,如果可能的话做一下精调,请问大概需要什么样的机器配置?或者有什么便宜的云 GPU 资源?

    6 条回复    2023-05-30 13:42:18 +08:00
    anonydmer
        1
    anonydmer  
       303 天前
    A100
    poyanhu
        2
    poyanhu  
       303 天前
    弄云 GPU 资源,还不如自己买显卡。
    glfpes
        3
    glfpes  
       303 天前
    阿里云 pai
    graetdk
        4
    graetdk  
       303 天前
    看参数量啊,例如 6b 或者 7b ,24- 32G 显存的都可以,如果用了半精度,那显存还可以更低,云 GPU 可以用 V100 ,A30 ,A100
    Volekingsg
        5
    Volekingsg  
       303 天前   ❤️ 1
    参数用 fp32 存的话,Model Memory=Model Parameter * 32 / 8 ,比如说 7B 的 LLaMA 就是 4*7 Billion Byte= 28GB
    fp16/bp16 减半,int8 再减半

    Inference 时,Total Memory ≈ 1.2 * Model Memory ,因此全量 7B LLaMA 需要 40G 的显卡

    全量微调的需要的参数量就更多了,> 5 * Model Memory ( AdamW 优化器,另外没算 Activation Memeory ,与 tokens 量有关)

    因此想要微调可以看下低参数量微调的工作,像 lora 等 https://github.com/huggingface/peft ,配合 16 精度参数能在 24G 上微调

    更具体数字可以参考 https://blog.eleuther.ai/transformer-math/
    jingsam
        6
    jingsam  
    OP
       303 天前 via Android
    @Volekingsg 感谢详尽的回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   954 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 21:18 · PVG 05:18 · LAX 14:18 · JFK 17:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.