q4 量化的大模型能比原版全精度的差多少？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

ollama 上 q4 量化的 qwq-32b 和 r1-32b 刚好都在 20g 以下，一张卡就能跑
感觉已经很能打了

当然是了解它的能力，给他一个在能力范围内的任务
毕竟只有 32b 参数，问他历史观点肯定是胡说，物理数学这些有简单规则的
我感觉很好用了

比如根据一个什么涉密数据的表格，写个报告。完全够用

原版的没试过，有大佬告诉我吗
差距主要体现在哪里？

量化

QwQ-32B

2 条回复 • 2025-03-06 21:28:31 +08:00

my3157

11 天前 via Android

https://github.com/QwenLM/Qwen/blob/main/README.md 这儿有说明，包括不同尺寸量化后对效果，推理等的影响对比

mili100

10 天前

https://github.com/ggerganov/llama.cpp/blob/master/examples/quantize/README.md#quantization