多模态大模型的大小远低于单文本模型啊。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

图文大模型开源的一般就 3b ，7b ，72b 。应该是某种原因限制了多模态模型的大小？比如图片不像文字一样自回归预训练大模型？单文本的 600b 都有，这是不是意味着 gpt4o 其实模型并没有 gpt4 大？那对比的时候这些多模态模型应该打不过单文字模型吧？

1 条回复

naclfish2333

20 天前 via iPhone

忘记在哪里看到一个说法了，多模态模型 8b 、9b 这样的大小效果已经不错了，参数量提升带来的效果提升不是很明显