看个这个视频，感觉苹果是不是真的偷了变形金刚的技术了？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 301 天前的主题，其中的信息可能已经有所发展或是发生改变。

[ M2 Ultra：干翻英伟达！决战 AI 之巅]

https://www.bilibili.com/video/BV1fh4y1M7DX/?share_source=copy_web&vd_source=862665acc49240851a918fdaa94799da

Ultra

变形金刚

决战

英伟达

41 条回复 • 2023-07-04 10:57:49 +08:00

stoneabc

301 天前

NVLink：你说啥？

AOK123

301 天前

个人认为这个 Up 的受众群体是学生
苹果芯片跑点自己的练手小项目没问题，用它做科研和工程就会吃苦头了

stoneabc

301 天前

@AOK123 看到热评里“cuda 要靠苹果打破”就绷不住了…典型的学生思维。

iloveoovx

301 天前

只能靠苦 NV 久矣的大佬企业和农企联合

luhe

301 天前

我现在已经不太敢点进苹果相关的视频了，正反的极端观点都太多...

felixcode

301 天前 via Android

终于能突破美国的显卡封锁了，用苹果就对了。

LeonParker

301 天前

tensorflow-metal 这个包现在有些 optimizer 都不太能跑。。真不至于

neopenx

301 天前

Transformer 的实际需要空间复杂度有很多技术降下去，果子这点小聪明只能说聊胜于无
跑的大部分都是矩阵乘法，M2U 也就和 3060 五五开

aptx4689

301 天前

别吹了，m 系列 cpu 是有一些进步，但你要真拿他干活就知道了

paopjian

301 天前

有个开头是好的,就怕吹过了,这人压根没详细测试,看看乐子得了.
我记得几年前有个公司还说 m1 吊打 3090 呢

agagega

301 天前 via iPhone

数码圈 B 友是这样的，始终理解不了世界的多样性，要么看到苹果发 M1 就要进军服务器搞死 IA ，要么觉得自己用不上苹果就觉得用苹果的都是傻逼，苹果这公司就该死。

要么觉得 ARM 一定干死 x86 ，要么喷 ARM 是垃圾还敢碰瓷高贵的 x86 ，然而可能连这两个都只听过名字，问他们什么是指令集，还有哪些指令集，指令集和什么东西有关，一问三不知。

fatelight

301 天前

不如等 AMD

wclebb

301 天前

人家说的是显存吧……
30 系和 40 系撑死也是 24G ，像楼上说的那个 NVlink 也是要几张卡，价格就上去了。价格不光上去，电源、主板等都要上去。有时候看一个角度吧，Apple 还真奇怪的角度会很好抓住痛点。

尝鲜者：太贵了，我想跑 AI ，动不动 100G 显存我买不起几十万。
Apple：给你了，统一内存只要四万就能跑。

显示器：太贵了，为什么这个显示器要 xx 万块。
Apple：给你了，Pro Display XDR ，自己看价格吧。

似乎在一些高端领域方面，Apple 倒是很好当成了小米，价格屠杀。

而且 Nvidia 闲置的时候，显存是没啥用的……
但 Apple Silicon 架构下，内存是共用的……（这内存本来就娇贵，HBM ）

AOK123

300 天前

@wclebb #13
当今很多深度学习的库是要用 nvcc 编译的，然而 nvcc 根本不支持 macOS ，再大显存也没用...拿显存说事的也就初学者和尝鲜者了
另外，8 卡 4090 的整机也就 10 万，哪来几十万？

zpole

300 天前

我个人认为 mac studio 加大内存很适合将来个人做 ai （尤其是大模型）的推理和 fintune 的工作，容易获得，功耗和噪音小，性价比高（要获得同样的 192g 显存 n 卡得用 tesla 计算卡+nvlink ）。复杂模型的训练还是得上 n 卡集群，但这是组织的事。至于说因为各种工具还不能很好的在 mac 使用的问题，只要社区认为有价值都是可以更新补全的。

beijing999923

300 天前

评论区真有趣

sharpy

300 天前

总的来说，速度不行，显存还可以。
这方面希望 amd 出一些大显存卡，来打破老黄的垄断，我觉得更靠谱。

James369

300 天前

具体没写清楚，有多少并行处理单元

murmur

300 天前

热评第一就是说苹果不靠谱啊

ai 出图一次都是出几十张几百张供选择这才是生产力用法一次出一张图那不就是玩具么 2060 级别的矿卡都可以轻松搞定

murmur

300 天前

@wclebb 你说如果苹果做成统一显存，这个得卖多少钱，他现在还是统一内存

这么牛逼的内存和 cpu ，游戏帧率一定很高吧

vgbw

300 天前

这种哗众取宠的标题我都懒得看

yzbythesea

300 天前

我 steam deck ，16G unifi memory ，完爆什么 3080 这些垃圾。只要 350 刀。

vv2023

300 天前

@stoneabc b 站现在有向民科聚集地，发展趋势

vv2023

300 天前

@AOK123 这哥们看回答内容典型的 b 小将啊

liantian

300 天前

V2 不应该是"No BB ，Show me code~"嘛。

统一内存那么强大。别说 M2 Ultra 干翻 8 张 4090 了。 M2 Pro 32G 干翻 4090 24G 都没见过..

echo1937

300 天前

什么赛博坦科技，别闹了好吗，相关技术、概念和产品一直都在发展，benchmark 成绩的话谨慎看待。

1 、最早的时候, 没有核显这个概念，最多算是集显，俗称 IGP ，是主板 PCB 上独立的一个芯片；

2 、随后厂商将显示部分和芯片组中的北桥芯片合二为一，风靡了数年。以 intel 为例，之前 intel 销售的带集成显卡的北桥芯片型号均有一个 G 作为后缀，代表此款北桥芯片中有显示部分。

3 、不久以后，内存控制器被集成到了 CPU 中，那为啥 GPU 就不能这么做呢？ Intel 于 2011 年发布了基于 QPI 总线互联的胶水核显 CPU ，代号 Clarkdale 。参考资料 https://www.expreview.com/79385.html

4 、AMD 收购了 ATI 以后，对于 CPU 和 GPU 协同工作的前景非常看好，推出了 HSA 联盟，HSA 特性包括很多分项，比如说共享电源管理、HSA-aware MMU （内存管理单元）、GPU Compute C++，而不仅仅是把 CPU 和 GPU 集成到一起。在这个背景下，AMD 在 2011 年发布第一代 APU ，GPU 和 CPU 不再是胶水，真正意义上的核显。

5 、2014 年 PS4 发布，使用了 AMD 的 APU Kaveri APU ，实现了名为 Heterogeneous Memory Management 的特性，CPU 的 MMU 和 GPU 的 IOMMU 共享相同的地址空间，从硬件层面实现“共同地址空间”。PS5 沿用了这个技术路线，AMD 有个叫 4700s 的型号，用的就是 PS5 阉割掉 gpu 的 soc ，使用 gddr6 做内存。

6 、看过 4700S 极客湾测评就知道，由于 gddr 频率和带宽大，但是延迟高（ gddr6 vs ddr4 ，测评成绩来看，延迟 144.1ns vs 67.8 ns ），所以日常使用体验并不好。

7 、果子出场了，体验不好是吧，俺有钞能力啊。延迟高是吧，那我换 ddr ；功耗大是吧，那我上 lpddr ；带宽不够是吧，普通 ddr4 内存和控制器的位宽是 64 位，m1 用了 128bit 的内存控制器，m1 pro 使用了 256bit 的内存控制器，m1 max 是 512bit 内存控制器，带宽和延迟都齐活了。

8 、大模型时代来了，显存大小和带宽的重要性反而超过算力。苏妈一看，我生态不行，ROCm 是真打不过 CUDA ，堆料谁不会啊，APU 和 Chiplet 还是我历史强项。

MI300A - 6 XCDs (Up To 228 CUs), 3 CCDs (Up To 24 Zen 4 Cores), 8 HBM3 Stacks (128 GB)
MI300X - 8 XCDs (Up To 304 CUs), 0 CCDs (Up To 0 Zen 4 Cores), 8 HBM3 Stacks (192 GB)

其中 MI300A 就是一个最高 24 核，228CU ，128GB HBM3 内存的的 APU ，引用一下 AMD 的官方内容：

“AMD 的 Instinct MI300 APU 系列将与名为 SH5 的全新插槽兼容，允许使用最新的 Infinity Fabric 互连和新的互连交换机将最多四个此类芯片配置在一起，以实现更快的带宽和互连速度。该服务器解决方案将以 AMD Instinct 平台的形式出现，该平台由 8 个 MI300 芯片组成，具有高达 1.5 TB 的 HBM3 内存，全部采用行业标准设计。”

Intel 和 NV 也有类似的，其中 INTEL 的产品计划叫 Falcon Shores ，定于 2025 年发布。

AyaseEri

300 天前

在一个满是学生、matlab 和 cad 需要在自己电脑跑的社区，讨论生产力，无疑是一种浪费时间的行为。

murmur

300 天前

@AyaseEri 对啊，难道你们公司和实验室买不到 A100 显卡么，这东西虽然对 H 禁售，但是想买总是有渠道的，而且不是有定制版本卖么

至于国外，人家买 A100 又没什么难度，最多是等发货慢点

所以个人要这么好的机器干嘛，个人就是用 2080ti o22g 就够了

locoz

300 天前

@wclebb #12 问题在于，对于只想尝鲜的人来说，跑大模型完全可以使用租机的方式解决，几万块够用很久了，使用体验完全碾压苹果，而且三分钟热度也不用担心浪费钱，配置过时了也不用担心没法升级。而对于需要实际长期使用大模型，或者是对大模型做微调，甚至是自己训练大模型的人来说，苹果那点算力又根本不够看。更别提对于绝大多数人来说根本都没有必须私有化部署的必要，几万块拿来调 GPT4 的 API 或者买别人的会员，实际使用时长都不用说，使用体验更是没法比。

至于内存闲置利用，如果只是尝鲜这种轻度使用情况，为了跑大模型而买的大内存，那对于大内存大概率也没有需求，实际买来的内存还是在浪费；如果是重度一点的使用情况，那这内存也闲置不下来，全被大模型吃完了，跑不了什么别的东西。

另外苹果的 XDR 显示器很大程度上是因为显示器厂商认为那个领域太过小众，面板平均水平还没提升到那种程度，没有必要特意为了小众用户而做那种产品。但对于苹果来说，自己的核心受众群体就是那部分在显示器厂商眼中小众的用户，它当然愿意去特意做个产品卖，成本也摊得开，价格在这种情况下看起来当然会有优势。

只能说不要尬吹苹果什么高端领域价格低，那只是因为小众群体没人在乎，可选项少而已。可选项一多起来，苹果毫无价格优势。

WuSiYu

300 天前

假设你能搞定一切环境的问题（没 kernel ？自己写！），m2 ultra 的唯一优势也只是显存，然而算力仅有 30TFLOPs 不到（无论是 GPU 还是 ANE ），比起主流炼丹卡 A100 的 156 FLOPS （ TF32 ）就是图一乐，甚至远不如 3090 ，并且一个 10Gb 口也可以告别分布式训练了。

唯一场景是个人玩家跑大模型和推理，或者跑龟速的 finetune ，但有这钱其实不如搞个 8 卡 3090/4090 更实用、且生态和泛用性更好