求一套做大语言模型推理的机器配置

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 590 天前的主题，其中的信息可能已经有所发展或是发生改变。

想配一台电脑本地部署开源的大语言模型如 Llama 、ChatGLM 等，制作推理，不做训练，如果可能的话做一下精调，请问大概需要什么样的机器配置？或者有什么便宜的云 GPU 资源？

推理

精调

模型

chatglm

6 条回复 • 2023-05-30 13:42:18 +08:00

anonydmer

2023-05-30 10:07:11 +08:00

A100

poyanhu

2023-05-30 10:10:39 +08:00

弄云 GPU 资源，还不如自己买显卡。

glfpes

2023-05-30 10:15:41 +08:00

阿里云 pai

graetdk

2023-05-30 10:17:05 +08:00

看参数量啊，例如 6b 或者 7b ，24- 32G 显存的都可以，如果用了半精度，那显存还可以更低，云 GPU 可以用 V100 ，A30 ，A100

Volekingsg

2023-05-30 12:29:36 +08:00

参数用 fp32 存的话，Model Memory=Model Parameter * 32 / 8 ，比如说 7B 的 LLaMA 就是 4*7 Billion Byte= 28GB
fp16/bp16 减半，int8 再减半

Inference 时，Total Memory ≈ 1.2 * Model Memory ，因此全量 7B LLaMA 需要 40G 的显卡

全量微调的需要的参数量就更多了，> 5 * Model Memory （ AdamW 优化器，另外没算 Activation Memeory ，与 tokens 量有关）

因此想要微调可以看下低参数量微调的工作，像 lora 等 https://github.com/huggingface/peft ，配合 16 精度参数能在 24G 上微调

更具体数字可以参考 https://blog.eleuther.ai/transformer-math/

jingsam

2023-05-30 13:42:18 +08:00 via Android

@Volekingsg 感谢详尽的回复