M3 Max 的神经引擎是否已经不够看了？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Support

› 根据产品序列号查看状态

有用链接

› Apple 产品更新周期

› Other World Computing 性能升级

› Apple 软件 Beta 测试

这是一个创建于 422 天前的主题，其中的信息可能已经有所发展或是发生改变。

从 M1 Max 开始，M 家族的 Neural Engine 就一直都是 16 核，Max 系列算力也从 11 TOPS 涨到目前的 18 TOPS （ https://www.anandtech.com/show/21116/apple-announces-m3-soc-family-m3-m3-pro-and-m3-max-make-their-marks ），不过讲真在现在这个时间节点，这点能力还是不够看啊。

毕竟隔壁高通的骁龙 X Elite 中集成的 Hexagon NPU 算力都怼到 45 TOPS 了，主打就是一个 LLM 的能力作为宣传的噱头。

这么看的话，用新的 M3 Max 来跑本地大模型似乎不怎么靠谱啊，也难怪发布会上都不咋提 ML 或 AI 能力的。所以，到底要不要换机啊，感觉下一代芯片的 AI 算力应该会得到强化，要不要再等一等...

26 条回复 • 2023-12-26 14:55:28 +08:00

lqcc

2023-11-01 15:21:39 +08:00

A16 NPU 17 TOPS, A17 pro NPU 35 TOPS.

oppurst

2023-11-01 15:26:28 +08:00

@lqcc 想想就很吓人... 手机比笔记本电脑算力更猛可敢信...

chonger

2023-11-01 15:30:13 +08:00

跑大模型不是和显卡和显存有关吗？ 4090 有 npu 吗？这点不太清楚，有人知道的话请指教

nicoljiang

2023-11-01 15:35:24 +08:00

@oppurst 主要是 A17pro 支持 int8 ，35 应该是 8 的性能，M3 的 18 应该是指 16 的性能

lqcc

2023-11-01 15:54:44 +08:00

@nicoljiang 根据这篇文章所说，如果统一以 INT16 标准，那 M1/M2/M3 对应的 NPU 分别是 11 、15.8 、18 TOPS 。A16 与 A17 Pro NPU 速度差不多，都为 17 TOPS 左右。不同的是 A17 Pro 支持 INT8 。

sharpy

2023-11-01 16:19:52 +08:00

用 metal 跑在 GPU 上啊

wpyfawkes

2023-11-01 16:37:06 +08:00

@chonger AI 推理和训练就是不断的在统计概率.于是理论上所有能浮点计算的设备都可以用来跑大模型.只要能接受龟速,CPU + 硬盘都能跑.

xixun

2023-11-01 16:40:16 +08:00 via iPhone

今年 m3m 最大显存倒是升级了

Rorysky

2023-11-01 16:44:10 +08:00

苹果的 AI 战略确实落后，不知道是不是再憋大招

Mark24

2023-11-01 16:44:27 +08:00

隔壁骁龙 X Elite 是 PPT ，预计明年年中才上市。

M 家族是现货

你让骁龙现在就拿出来卖啊 :D

xixun

2023-11-01 16:45:54 +08:00 via iPhone

@lqcc A17pro 是 35TFlops 吧

lqcc

2023-11-01 16:47:39 +08:00

@xixun A17 Pro 那是以 INT8 计算的，要是按照 INT16 计算，要打折。

wanguorui123

2023-11-01 16:51:37 +08:00

A17 Pro 的制程红利基本上全部用到 NPU 上了达到 35T

lqcc

2023-11-01 17:09:44 +08:00

@wanguorui123 根据我看到的文章，这个 35 TOPS 可能是 INT8 跑出来的，苹果其它 A 系 M 系芯片跑分是 INT16/FP16 。所以这个 35T 要打对折。

xixun

2023-11-01 17:19:14 +08:00 via iPhone

高通那个不是 int4 吗

lqcc

2023-11-01 17:26:43 +08:00

@xixun 没错，高通 X Elite 45 TOPS 是 INT4 跑出来的。

xixun

2023-11-01 17:28:32 +08:00 via iPhone

@lqcc https://machinelearning.apple.com/research/neural-engine-transformers https://www.apple.com/by/iphone-13-pro/ https://www.apple.com/go/2022/iphone-14-pro/
都以 fp16 计算 13pro 官网说是 15.8 万亿次是 15.8TFlops 14p 是 17 万亿次 15p 提升一倍理应也是 35TFlops

lqcc

2023-11-01 17:39:07 +08:00

@xixun A15/A16/A17 pro 神经网络引擎都是 16 核心，A15 是 15.8 TOPS ，A16 是 17 ，A17 pro 再打鸡血，也不能在不增加核心数目的前提下跑分达到上一代的 2 倍吧。

lqcc

2023-11-01 17:43:56 +08:00

@xixun 可以参考 Geekbench 6 ML 跑分。数据表明，A17 pro 的 npu 跑分比 A16 的分数也就提高了 10%左右吧。

xixun

2023-11-01 17:46:28 +08:00 via iPhone

@lqcc 但 Apple 官网 A17Pro 说的是两倍速度，就算隔代比两倍那也有 30 多 TFlops

orangie

2023-11-01 17:47:20 +08:00

终端机器，移动设备，跑大模型，短期内我是不信的，蹭热点罢了。短期内就算浮点性能和内存够用，移动设备的电池不适合。之前吹 npu 的时候，也没见有什么终端上的智能应用能改善体验，唯一明显的就是各家都开始用模型来给相机 P 图了。

lqcc

2023-11-01 17:56:27 +08:00

@xixun 这个两倍不知道苹果按什么计算的。

感兴趣可以看看这个文章： https://www.photoroom.com/inside-photoroom/core-ml-performance-benchmark-2023-edition

神经引擎跑分，A17 pro 大概比 A16 提升 16%。看看以后有没有新的消息出来。

neopenx

2023-11-01 18:20:19 +08:00

ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话，满血 M2 Max 的 FP32 才 14T 。
苹果短期内应该不打算融合 ANE 和 GPU ，也就是维持 ANE 以低功耗优势，继续挤牙膏。
鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。

xinyu198736

2023-11-01 19:00:37 +08:00

苹果跑大模型最大的问题是他的内存管理机制不是很可控，当大模型内存快占满的时候，内存容易被分走，导致模型迅速变慢。。

nicoljiang

2023-11-02 15:04:40 +08:00

@xixun 不太相信同厂商自己的同制程同代际芯片中移动芯片某项数值能吊打桌面芯片。

LuvLetter

2023-12-26 14:55:28 +08:00

@lqcc 有的应用是 memory bound, 瓶颈不在算力; ANE 这种 ASIC 不能单看核数, 还得看架构;
@nicoljiang ANE 一直都支持 int8, 没有 A17Pro 才支持 int8 的说法, 4bit 也很早就有了
https://developer.apple.com/wwdc23/10047