adonishong

M2 Max(14) 对比 M1 Max(16) 的 pytorch 推理性能简测

  •  
  •   adonishong · Feb 27, 2023 · 4277 views
    This topic created in 1181 days ago, the information mentioned may be changed or developed.

    刚到手, 简单测了一下 pytorch 1.x + clip, 跑的是 ViT-L/14@336px 模型, MPS 的 backend, 每张图跑到 32batch, 每张图推理时间 M1 Max 大概是 0.2x 秒, M2 Max 大概是 0.11 秒, 性能翻倍很明显, 参考一下 1080ti 的对应性能是 0.06 秒左右

    也就是说 M2 Max 的 MPS 性能有可能达到 1080Ti 的百分之 60 左右了

    再强调一下, 用的是 MPS 直接跑的推理, 不是转 onnx 以后用 npu 跑的

    13 replies    2023-03-22 19:08:07 +08:00
    neopenx
        1
    neopenx  
       Feb 27, 2023
    这俩 GPU 的 FP32 Peak 本来就差不多。
    MPS 的 Gemm 实现太差,你跑一下就知道大概只能到 65%的 peak 。
    Transformer 的 90%计算量都在 Gemm 上。
    cublas 的 Gemm 都优化多少年了,上 90%以上的 peak 非常简单。
    就这一点上,苹果要用更高的设计峰值才能去打 N 卡。
    你要是换 FP16 ,10 系后的卡大部分靠 TensorCore 就能把果子 GPU 计算打到自闭
    caEsIum
        2
    caEsIum  
       Feb 27, 2023
    14 寸的笔记本性能释放受限,建议能 16 还是 16 ,差不了多少钱。
    没有移动办公需求的话,非常建议直接 Studio ( M2 系列),如果今年还有的话。
    gefangshuai
        3
    gefangshuai  
       Feb 27, 2023
    @caEsIum 差 3k 叫差不了多少钱?
    caEsIum
        4
    caEsIum  
       Feb 27, 2023
    @gefangshuai M2 Max 对比只差 1500 ,谁还买 M1 Max 啊。
    adonishong
        5
    adonishong  
    OP
       Feb 27, 2023
    @neopenx 这就是准备在没有网络的时候跑跑原型做一下基础的代码测试的 ... 正经炼丹那肯定是发到远程主机上拿英伟达的卡跑啊
    adonishong
        6
    adonishong  
    OP
       Feb 27, 2023
    @neopenx 请教一下目前 amd 那边 ROCm 的实现情况怎么样了? 效率方面和英伟达那边 cublas, cudnn 的差距能有多大有了解么?
    neopenx
        7
    neopenx  
       Feb 27, 2023
    @adonishong RDNA 游戏卡没有 TensorCore 对标单元,处境和果子类似,没啥用。你要用 FP16 只能买 CDNA 的数据中心卡,好像优化的还可以。不过 CDNA 肯定没 GeForce 划算,GeForce 现在砍掉的只有 PCIE/NVLINK P2P ,等于只禁掉你在数据中心的高速互联。
    johnsonyeen
        8
    johnsonyeen  
       Feb 27, 2023
    14 寸 30C 的?
    adonishong
        9
    adonishong  
    OP
       Feb 27, 2023
    adonishong
        10
    adonishong  
    OP
       Feb 27, 2023
    @neopenx 收到, 感谢
    sherwin008
        11
    sherwin008  
       Feb 28, 2023
    @caEsIum 不是说从性能上来说差不多么?只是大屏幕与续航体验的差距
    nimei128
        12
    nimei128  
       Mar 16, 2023
    mps 就是一坨 shit 没有意义
    adonishong
        13
    adonishong  
    OP
       Mar 22, 2023
    这一坨 shit 在飞机高铁上这种不方便连远端服务器的环境下, 能让你还相对比较高效的调你的神经网络调个几个小时呢 ...
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2898 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 56ms · UTC 04:46 · PVG 12:46 · LAX 21:46 · JFK 00:46
    ♥ Do have faith in what you're doing.