qdwang

V2EX member #40309, joined on 2013-06-07 17:44:48 +08:00

Per qdwang's settings, the topics list is hidden

Deals info, including closed deals, is not hidden

qdwang's recent replies

Apr 19

@Hermitist 你 32g 的 mac 跑 38g 的模型肯定不行的。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF
这里可以下载适合你的

Apr 18

@Hermitist 快是因为 mlx 量化里，有些关键权重被砍成低量化了，会速度快但是质量差。你测试 gguf 也会发现，同样 4bit 里，iq4_xs 会比 q4_k_m 快很多。

Apr 17

@Hermitist mac 不要用 mlx ，mlx 一方面量化模型拉垮，另一方面速度也不快，第三方面内存占用还高，第四方面整个包体积太大。

gguf 系强太多，少折腾直接上 llama.cpp ，手动下载 gguf 模型

Apr 17

@MLawliet 跑的 iq4_xs 量化，运算时刚刚好吃满 23g 内存，不会写 swap ，128k 上下文。

做了 100k 上下文里乱序随机位置插 26 个关联计算题测试，能做对。

Apr 17

@hanguofu m4pro 24g 内存

Mar 17

快是正常的，苹果现在是硬件第一梯队，我 m4 pro 纯 CPU 跑 qwen3.5 35B Q4 量化，都可以跑到 40t/s ，GPU 跑 52t/s

要是苹果的软件也像硬件一样靠谱就好了

Feb 22

@me007 你说的在理，目前来看，还是人的成本低

Feb 21

@trn4 错了，GPT 出来之前，机器学习语言也是一件事一件事学习，GPT 出来之后直接泛化解决所有的语言问题了

Feb 19

@trn4 必须要人形的兄弟，人形才有比较强的泛化能力。要么就是究极纳米形态随时变换的那种

Feb 19

@fcten 老哥分析的很客观，希望 10 年内快点有突破