https://zhuanlan.zhihu.com/p/657550065
看了下,它用的应该是个 kde 的 linux ,比如 kubuntu ,竟然 跑起来了 13b
1
ElsaGranger 303 天前 via iPhone
不想量化可以试试 powerinfer
|
2
zhlenmao OP @ElsaGranger 谢谢~~~
|
3
zhlenmao OP 已经试成了。用的 linux mint ,就是不能问太长,长了就直接 cuda 溢出报错。然后换成了 int4 量化版,这样输入就能长的多了。至于"ElsaGranger "说的方法还没空试
|
4
shm7 268 天前
显存太小,随便 2k 可能都爆了,都是无效尝试。
|
5
smalltong02 204 天前
在 windows 平台下可以,前提是内存够大,不怕推理慢。
|