parad
ONLINE

parad

V2EX 第 466908 号会员,加入于 2020-01-27 21:30:24 +08:00
今日活跃度排名 1736
parad 最近回复了
4 天前
回复了 csfreshman 创建的主题 投资 美股 20%仓位亏了 10 个,心痛的无法呼吸
@zhy91 从公开的 trade deficit 数据来看是美国进口中国的大于中国进口美国的。跟你说的是正好反的。这也是美国增加关税最根本的理由。
@paranoiagu 也算是正常的。Ollama 内部是有些自己的逻辑的。

Reddit r/LocalLLaMA 和 Hacker News 我记得有人反馈同样的问题。

你也可以在那里 post 你的测试结果。
Temperature 设置为 0 ,消除 output 随机性

确保都是在 GPU 上跑的,lamma.cpp 和 ollama 默认有可能在 CPU 上跑,需要配置
每个模型不太一样,但是质量都会随 context 长度下降。

https://arxiv.org/abs/2502.05167
推荐 Fireworks, Together 和 Hyperbolic ,我自己测试下来速度比较快。Hyperbolic 最近两天变慢了。

测试脚本的原始数据: https://github.com/paradite/deepseek-r1-speed-benchmark

测试报告 https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed
@lovestudykid 问了另一家 provider ,他们说因为 Deepseek R1 是 "trained in FP8",所以本来就是 FP8 quantization 。所以没有影响。
但我也不确定这些 provider 有没有自己多做一层 quantization ,因为 Deepseek R1 的 FP8 是某些 layer 才有的,有会多其他 layer 还是 BF16:
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00001-of-000163.safetensors
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00160-of-000163.safetensors
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00163-of-000163.safetensors
这些 BF16 不确定是不是被额外的做了 FP8 quantization 。按照 vLLM 的说法,如果是 Online Dynamic Quantization
“all Linear modules (except for the final lm_head) have their weights quantized down to FP8_E4M3 precision with a per-tensor scale”:
- https://docs.vllm.ai/en/v0.5.0.post1/quantization/fp8.html
@lovestudykid 根据我的理解,DeepSeek 最终的 weight 是 mixed F8_E4M3 + FP32 。这个可以在 Hugging Face 的 原始 model layer details 里面看到: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00027-of-000163.safetensors

而 Hyperbolic 的 FP8 是他们自己的 quantization ,是在 model 上面额外的 quantization ,这里有解释: https://docs.hyperbolic.xyz/docs/hyperbolic-ai-inference-pricing

所以我理解 Hyperbolic 应该是做了额外的 quantization 。当然有可能是我理解错了。欢迎指正。
域名太小众,渲染不出 link [https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed]( https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed)
有很多,我这里做了对比

https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed

持续更新中
76 天前
回复了 CC11001100 创建的主题 程序员 全球工单系统: deepseek 是挂了吗?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1110 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 18:01 · PVG 02:01 · LAX 11:01 · JFK 14:01
Developed with CodeLauncher
♥ Do have faith in what you're doing.