求教: 如何基于 LLM 构建一个代码协助助手？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 429 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，需要一个训练好的大模型，比如 Code Llama ，然后把我的代码项目导进去，比如一个 c++工程 2w 行代码，然后我就能通过一定的方式问他了:比如这个类是干啥的，如何初始化一个 xxxAgent(代码里的) 这样类似的问题。构建这样的工具可行的方式是什么？

代码

llm

llama

xxxagent

4 条回复 • 2023-12-19 21:34:02 +08:00

imes

2023-12-19 20:41:28 +08:00

导入整个项目进行提问（单个文件有现成的 copilot chat 和 codium chat ），需要使用基座模型进行训练和精调。无论是全量预训练或者使用 LoRA ，对于个人而言，都是不现实的：
1. 没有那么多的数据；
2. 硬件要求很高。
比如，llama2-13b 只训练 LoRA 参数，单卡显存要求大于 20G ；全量预训练没有四张 V100 以上的卡基本没法高效开展。实在想尝试，可以看看 Chinese-LLaMA-Alpaca-2 我记得有现成的脚本可以上手微调，光加个中文就用了 50K 词表和 100G 纯文本。

ljx626

2023-12-19 20:50:24 +08:00

@imes 感谢大佬~ 使用基座模型的基础上，用自己的代码项目做一下增训，会有效果不

imes

2023-12-19 21:21:30 +08:00

@ljx626 2#
肯定是有效果的，但是最终质量极其依赖训练的数据量。粗略估计，即使精馏，也得有个 20G 数据才行得通。

GeekGao

2023-12-19 21:34:02 +08:00

fine tune 么。看你微调样本数量。使用云服务预算要拉到 300 美金以上。