开源大模型的“源”到底是什么？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 127 天前的主题，其中的信息可能已经有所发展或是发生改变。

我们都知道开源指的是开放源代码，理论上来说，任何人都可以通过源码仓库实现自构建、自部署、自托管，做出跟原作者类似的应用。 那么大型语言模型的“源”指的是什么？

英文太烂看不懂 hugging face 里的说明😂 我目前理解的只有数据集（一大堆结构化的文本），其他的诸如参数、训练方法、预训练模型具体指的是啥？除了前述这些，还有遗漏的吗？

巧合的是那年 Llama 在 2 月开源，百度文心、阿里通义和腾讯混元都先后实现了“全链路自研”，我比较好奇 Llama 自己是依赖哪位前者？它有声明学习对象吗？

更想引出一个一直疑惑的点，各种五花八门的开源许可证到底是国际通用的、具有实际效力的条款文件，还是纯粹的“君子协议”？😂

11 条回复 • 2024-07-25 19:41:14 +08:00

Mogamigawa

127 天前 via Android

码了，我也不懂

malusama

127 天前

模型开源不都是开放下载模型权重么？

mumbler

127 天前

大模型开源的是权重文件，你可以用自己数据去微调这个权重，而不用从头去训练

shinsekai

127 天前

训练好的模型参数+模型结构

或者

用于训练的数据集+训练参数+模型结构

ztm0929

127 天前

@mumbler
@malusama

对，GPT 给我的解答也包含了这个，但如果以这个来定义为“开源”的话，其实各家都有付费服务（例如 OpenAI 的付费 fine-tune ），这么看开源的特色之处主要在于免费？😂

mustcool

127 天前

数据集基本都没开源

mumbler

127 天前

@ztm0929 #5 fine-tune 付费服务主要是为算力付费，模型都是免费的，至少现在没收你钱

mumbler

127 天前

@mustcool #6 数据集肯定有严重的版权问题，没法开源

mauve

127 天前

mumbler

127 天前

@ztm0929 #5 开源的好处是模型可调，算力可控，你可以用自己的 GPU 本地部署开源模型，需要用的时候才开机，只需要付电费，便宜，而云端算力就算空闲你也要付 GPU 费，贵

想体验下部署本地模型，目前最简单的方法是用 flashai.com.cn 提供的整合包，一键下载，开箱即用

ztm0929

127 天前

@mumbler 哈哈好吧，比较可惜，现在主要是想体验通义 72b 和 llama70b