robbaa 最近的时间轴更新
robbaa

robbaa

V2EX 第 594402 号会员,加入于 2022-09-15 13:13:39 +08:00
今日活跃度排名 6008
robbaa 最近回复了
ab -c 10 -n 10 -p ./testchat.json -T "application/json" -H 'Content-Type: application/json' http://localhost:11434/api/chat

testchat.json 中内容
```
{
"model": "llama3:70b",
"stream": true,
"frequency_penalty": 0,
"presence_penalty": 0,
"temperature": 0.6,
"top_p": 1,
"messages": [
{
"content": "安排一个南京的 2 天的旅游攻略,用中文回答",
"role": "user"
}
]
}
```
@ispinfx ollama 目前是单线程模型。
ab 工具测试 10 并发 10 请求,耗时 312 秒, 没有并发可言
给你个参考:
环境:双 3090 + nvlink + docker
命令:ollama run llama3:70b --verbose
刚刚好可以塞下。

ollama-1 | ggml_cuda_init: found 2 CUDA devices:
ollama-1 | Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | llm_load_tensors: ggml ctx size = 0.83 MiB
ollama-1 | llm_load_tensors: offloading 80 repeating layers to GPU
ollama-1 | llm_load_tensors: offloading non-repeating layers to GPU
ollama-1 | llm_load_tensors: offloaded 81/81 layers to GPU
ollama-1 | llm_load_tensors: CPU buffer size = 563.62 MiB
ollama-1 | llm_load_tensors: CUDA0 buffer size = 18821.56 MiB
ollama-1 | llm_load_tensors: CUDA1 buffer size = 18725.42 MiB


测试三次结果:

total duration: 25.820168178s
load duration: 1.436783ms
prompt eval count: 14 token(s)
prompt eval duration: 483.796ms
prompt eval rate: 28.94 tokens/s
eval count: 448 token(s)
eval duration: 25.203697s
eval rate: 17.78 tokens/s


total duration: 30.486672187s
load duration: 1.454596ms
prompt eval count: 479 token(s)
prompt eval duration: 2.025687s
prompt eval rate: 236.46 tokens/s
eval count: 496 token(s)
eval duration: 28.322837s
eval rate: 17.51 tokens/s


total duration: 21.176605423s
load duration: 2.629646ms
prompt eval count: 529 token(s)
prompt eval duration: 2.325535s
prompt eval rate: 227.47 tokens/s
eval count: 324 token(s)
eval duration: 18.622355s
eval rate: 17.40 tokens/s
22 天前
回复了 heng0226 创建的主题 南京 五一去南京旅游需要注意什么
别来,本地人都挤的没地方去了 T_T
73 天前
回复了 zooo 创建的主题 生活 话说 正月里能不能理发?
建议别剪,人言可畏
95 天前
回复了 XvKai 创建的主题 南京 网友们好啊!谁能推荐下南京景点吗?
请参照高德地图角落点亮,把剩余的 81.1%点亮~

---
同南京人,我大榴莲都没去过 T_T
Toca Toca
154 天前
回复了 luomao 创建的主题 程序员 如何带一个 0 基础的女生接触编程呢
@luomao
搞 IT 好为人师,但未必是人需要的。

交女性学代码这点有点发言权,除非与她个人强工作相关,其他都没有成功过。

与其冒着掉秃头风险调试 bug ,追剧看小说不是更有意思?!
小公司重构就用 golang ,性能好、省资源。
技术栈一旦确定下来就要有人维护,java 人那么多,招来就是工资倒挂,何苦?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2496 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 14:38 · PVG 22:38 · LAX 07:38 · JFK 10:38
Developed with CodeLauncher
♥ Do have faith in what you're doing.