lwch 最近的时间轴更新
lwch

lwch

V2EX 第 115633 号会员,加入于 2015-05-07 12:19:25 +08:00
今日活跃度排名 30806
无需量化,在树莓派上运行 LLaMA2 70B 模型
  •  2   
    分享创造  •  lwch  •  159 天前  •  最后回复来自 lwch
    28
    分享一个新开发的 proxmox 监控数据 exporter
    分享创造  •  lwch  •  2022-08-31 15:52:43 PM  •  最后回复来自 lwch
    9
    主机管理工具 natpass v0.9.0 版本发布,新增 macos 远程桌面支持
    分享创造  •  lwch  •  2022-07-09 00:19:57 AM  •  最后回复来自 lwch
    8
    主机管理工具 natpass v0.8.2 版本发布,去除连接池,支持上万并发
    分享创造  •  lwch  •  2022-01-24 17:31:40 PM  •  最后回复来自 lwch
    2
    主机管理工具 natpass v0.8.0 版本发布,支持非 tls 加密连接
    分享创造  •  lwch  •  2022-01-09 13:16:13 PM  •  最后回复来自 goifly
    8
    natpass v0.7.2 版本发布,新增 Linux 远程桌面支持
    分享创造  •  lwch  •  2021-12-10 22:54:32 PM  •  最后回复来自 dianso
    3
    内网穿透工具 natpass v0.6.0 版本发布,新增远程桌面功能
    分享创造  •  lwch  •  2021-11-09 17:08:00 PM  •  最后回复来自 lwch
    33
    lwch 最近回复了
    159 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @rekulas 如果内存足够大的话可以增加--cache 和--fp32 缓存参数,每次加载参数速度很慢
    160 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @rekulas 只实现模型推理的话其实并不复杂,要实现整个深度学习框架就非常麻烦。每个 tensor 的正向传播、反向传播、梯度计算等,我实现了一个 https://github.com/lwch/gotorch 库包装了 libtorch 库里面已经实现了上百个算子,这还只是 pytorch 中的一部分,想要实现一个完整的框架一个人难以完成。
    161 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 今天做了不少优化,目前 7B 模型单机运行已经可降低到 1.2~1.6s/token ,但 CPU 并未全部跑满可能还有一定的优化空间
    161 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 所以我上面也说了,单机的性能是有限的,想要提升整体性能只能靠堆集群来实现,目前为止这个项目还处于单机运行状态,至于说具体以哪种方式来做并行计算这个是需要实际测试的。我认为 go 语言天生就是高并发高吞吐量的代名词,因此我一开始就选用了 go 语言而不是其他的语言来进行开发,就 go 语言本身而言从单机版到集群版也更容易一些。

    另如果 10 台机器的集群计算性能可以达到 GPU 的一半,我觉得大部分的资本家也是可以接受的,毕竟总体成本下降了好几个数量级。
    161 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 那再举个例子谷歌搜索核心代码也是 go 的,你觉得以他的体量计算量会很小吗,速度不是一样不慢的
    162 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 再慢也能超过 python 不是吗
    162 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @GeekGao 树莓派只是打个比方,你当然可以在云上申请几台机器来加快推理速度,这个项目的主要目标还是为了降低大模型的使用成本,使普通人也可以跑上 70B 模型
    162 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @GeekGao 用这 1.6T 内存在高并发情况下,可以并行处理更多的 batch
    162 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @GeekGao 你可以这么计算,载入 70B 模型需要 130G 显存,按 4090 的 24G 显存计算,载入整个模型需要至少 7 张卡,换算成成本就是 14W+,这些钱总共可以买 200 多个树莓派,每个 8G 内存总共 1.6T 以上,如果组起集群的话计算效率并不会比 4090 慢多少
    162 天前
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @duojiao 哈哈,不要关心速度,做了参数延迟加载后可在低内存设备上运行可大大降低运行成本,速度只能靠堆集群和做各种各样的缓存来提升
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   988 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 20:13 · PVG 04:13 · LAX 13:13 · JFK 16:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.