@rekulas 只实现模型推理的话其实并不复杂，要实现整个深度学习框架就非常麻烦。每个 tensor 的正向传播、反向传播、梯度计算等，我实现了一个 https://github.com/lwch/gotorch 库包装了 libtorch 库里面已经实现了上百个算子，这还只是 pytorch 中的一部分，想要实现一个完整的框架一个人难以完成。

2023-10-19 14:54:33 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 今天做了不少优化，目前 7B 模型单机运行已经可降低到 1.2~1.6s/token ，但 CPU 并未全部跑满可能还有一定的优化空间

2023-10-19 10:14:47 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 所以我上面也说了，单机的性能是有限的，想要提升整体性能只能靠堆集群来实现，目前为止这个项目还处于单机运行状态，至于说具体以哪种方式来做并行计算这个是需要实际测试的。我认为 go 语言天生就是高并发高吞吐量的代名词，因此我一开始就选用了 go 语言而不是其他的语言来进行开发，就 go 语言本身而言从单机版到集群版也更容易一些。

另如果 10 台机器的集群计算性能可以达到 GPU 的一半，我觉得大部分的资本家也是可以接受的，毕竟总体成本下降了好几个数量级。

2023-10-19 08:44:55 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 那再举个例子谷歌搜索核心代码也是 go 的，你觉得以他的体量计算量会很小吗，速度不是一样不慢的

2023-10-18 20:13:15 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 再慢也能超过 python 不是吗

2023-10-18 14:55:55 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@GeekGao 树莓派只是打个比方，你当然可以在云上申请几台机器来加快推理速度，这个项目的主要目标还是为了降低大模型的使用成本，使普通人也可以跑上 70B 模型

2023-10-18 12:07:26 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@GeekGao 用这 1.6T 内存在高并发情况下，可以并行处理更多的 batch

» lwch 创建的更多回复