V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
justincnn
V2EX  ›  macOS

看个这个视频,感觉苹果是不是真的偷了变形金刚的技术了?

  •  
  •   justincnn · 301 天前 · 7604 次点击
    这是一个创建于 301 天前的主题,其中的信息可能已经有所发展或是发生改变。
    41 条回复    2023-07-04 10:57:49 +08:00
    stoneabc
        1
    stoneabc  
       301 天前
    NVLink:你说啥?
    AOK123
        2
    AOK123  
       301 天前   ❤️ 3
    个人认为这个 Up 的受众群体是学生
    苹果芯片跑点自己的练手小项目没问题,用它做科研和工程就会吃苦头了
    stoneabc
        3
    stoneabc  
       301 天前   ❤️ 1
    @AOK123 看到热评里“cuda 要靠苹果打破”就绷不住了…典型的学生思维。
    iloveoovx
        4
    iloveoovx  
       301 天前
    只能靠苦 NV 久矣的大佬企业和农企联合
    luhe
        5
    luhe  
       301 天前   ❤️ 3
    我现在已经不太敢点进苹果相关的视频了,正反的极端观点都太多...
    felixcode
        6
    felixcode  
       301 天前 via Android
    终于能突破美国的显卡封锁了,用苹果就对了。
    LeonParker
        7
    LeonParker  
       301 天前
    tensorflow-metal 这个包现在有些 optimizer 都不太能跑。。真不至于
    neopenx
        8
    neopenx  
       301 天前
    Transformer 的实际需要空间复杂度有很多技术降下去,果子这点小聪明只能说聊胜于无
    跑的大部分都是矩阵乘法,M2U 也就和 3060 五五开
    aptx4689
        9
    aptx4689  
       301 天前
    别吹了,m 系列 cpu 是有一些进步,但你要真拿他干活就知道了
    paopjian
        10
    paopjian  
       301 天前
    有个开头是好的,就怕吹过了,这人压根没详细测试,看看乐子得了.
    我记得几年前有个公司还说 m1 吊打 3090 呢
    agagega
        11
    agagega  
       301 天前 via iPhone   ❤️ 13
    数码圈 B 友是这样的,始终理解不了世界的多样性,要么看到苹果发 M1 就要进军服务器搞死 IA ,要么觉得自己用不上苹果就觉得用苹果的都是傻逼,苹果这公司就该死。

    要么觉得 ARM 一定干死 x86 ,要么喷 ARM 是垃圾还敢碰瓷高贵的 x86 ,然而可能连这两个都只听过名字,问他们什么是指令集,还有哪些指令集,指令集和什么东西有关,一问三不知。
    fatelight
        12
    fatelight  
       301 天前
    不如等 AMD
    wclebb
        13
    wclebb  
       301 天前   ❤️ 6
    人家说的是显存吧……
    30 系和 40 系撑死也是 24G ,像楼上说的那个 NVlink 也是要几张卡,价格就上去了。价格不光上去,电源、主板等都要上去。有时候看一个角度吧,Apple 还真奇怪的角度会很好抓住痛点。

    尝鲜者:太贵了,我想跑 AI ,动不动 100G 显存我买不起 几十万。
    Apple:给你了,统一内存只要 四万就能跑。

    显示器:太贵了,为什么这个显示器要 xx 万块。
    Apple:给你了,Pro Display XDR ,自己看价格吧。

    似乎在一些高端领域方面,Apple 倒是很好当成了小米,价格屠杀。

    而且 Nvidia 闲置的时候,显存是没啥用的……
    但 Apple Silicon 架构下,内存是共用的……(这内存本来就娇贵,HBM )
    AOK123
        14
    AOK123  
       300 天前   ❤️ 4
    @wclebb #13
    当今很多深度学习的库是要用 nvcc 编译的,然而 nvcc 根本不支持 macOS ,再大显存也没用...拿显存说事的也就初学者和尝鲜者了
    另外,8 卡 4090 的整机也就 10 万,哪来几十万?
    zpole
        15
    zpole  
       300 天前   ❤️ 1
    我个人认为 mac studio 加大内存很适合将来个人做 ai (尤其是大模型)的推理和 fintune 的工作,容易获得,功耗和噪音小,性价比高(要获得同样的 192g 显存 n 卡得用 tesla 计算卡+nvlink )。复杂模型的训练还是得上 n 卡集群,但这是组织的事。至于说因为各种工具还不能很好的在 mac 使用的问题,只要社区认为有价值都是可以更新补全的。
    beijing999923
        16
    beijing999923  
       300 天前
    评论区真有趣
    sharpy
        17
    sharpy  
       300 天前   ❤️ 1
    总的来说,速度不行,显存还可以。
    这方面希望 amd 出一些大显存卡,来打破老黄的垄断,我觉得更靠谱。
    James369
        18
    James369  
       300 天前
    具体没写清楚,有多少并行处理单元
    murmur
        19
    murmur  
       300 天前   ❤️ 1
    热评第一就是说苹果不靠谱啊

    ai 出图一次都是出几十张 几百张 供选择 这才是生产力用法 一次出一张图那不就是玩具么 2060 级别的矿卡都可以轻松搞定
    murmur
        20
    murmur  
       300 天前
    @wclebb 你说如果苹果做成统一显存,这个得卖多少钱,他现在还是统一内存

    这么牛逼的内存和 cpu ,游戏帧率一定很高吧
    vgbw
        21
    vgbw  
       300 天前
    这种哗众取宠的标题我都懒得看
    yzbythesea
        22
    yzbythesea  
       300 天前
    我 steam deck ,16G unifi memory ,完爆什么 3080 这些垃圾。只要 350 刀。
    vv2023
        23
    vv2023  
       300 天前   ❤️ 1
    @stoneabc b 站 现在有向民科聚集地 ,发展趋势
    vv2023
        24
    vv2023  
       300 天前   ❤️ 1
    @AOK123 这哥们看回答内容 典型的 b 小将啊
    liantian
        25
    liantian  
       300 天前
    V2 不应该是"No BB ,Show me code~"嘛。

    统一内存那么强大。别说 M2 Ultra 干翻 8 张 4090 了。 M2 Pro 32G 干翻 4090 24G 都没见过..
    echo1937
        26
    echo1937  
       300 天前   ❤️ 4
    什么赛博坦科技,别闹了好吗,相关技术、概念和产品一直都在发展,benchmark 成绩的话谨慎看待。

    1 、最早的时候, 没有核显这个概念,最多算是集显,俗称 IGP ,是主板 PCB 上独立的一个芯片;

    2 、随后厂商将显示部分和芯片组中的北桥芯片合二为一,风靡了数年。以 intel 为例,之前 intel 销售的带集成显卡的北桥芯片型号均有一个 G 作为后缀,代表此款北桥芯片中有显示部分。

    3 、不久以后,内存控制器被集成到了 CPU 中,那为啥 GPU 就不能这么做呢? Intel 于 2011 年发布了基于 QPI 总线互联的胶水核显 CPU ,代号 Clarkdale 。参考资料 https://www.expreview.com/79385.html

    4 、AMD 收购了 ATI 以后,对于 CPU 和 GPU 协同工作的前景非常看好,推出了 HSA 联盟,HSA 特性包括很多分项,比如说共享电源管理、HSA-aware MMU (内存管理单元)、GPU Compute C++,而不仅仅是把 CPU 和 GPU 集成到一起。在这个背景下,AMD 在 2011 年发布第一代 APU ,GPU 和 CPU 不再是胶水,真正意义上的核显。

    5 、2014 年 PS4 发布,使用了 AMD 的 APU Kaveri APU ,实现了名为 Heterogeneous Memory Management 的特性,CPU 的 MMU 和 GPU 的 IOMMU 共享相同的地址空间,从硬件层面实现“共同地址空间”。PS5 沿用了这个技术路线,AMD 有个叫 4700s 的型号,用的就是 PS5 阉割掉 gpu 的 soc ,使用 gddr6 做内存。

    6 、看过 4700S 极客湾测评就知道,由于 gddr 频率和带宽大,但是 延迟高( gddr6 vs ddr4 ,测评成绩来看,延迟 144.1ns vs 67.8 ns ),所以日常使用体验并不好。

    7 、果子出场了,体验不好是吧,俺有钞能力啊。延迟高是吧,那我换 ddr ;功耗大是吧,那我上 lpddr ;带宽不够是吧,普通 ddr4 内存和控制器的位宽是 64 位,m1 用了 128bit 的内存控制器,m1 pro 使用了 256bit 的内存控制器,m1 max 是 512bit 内存控制器,带宽和延迟都齐活了。

    8 、大模型时代来了,显存大小和带宽的重要性反而超过算力。苏妈一看,我生态不行,ROCm 是真打不过 CUDA ,堆料谁不会啊,APU 和 Chiplet 还是我历史强项。

    MI300A - 6 XCDs (Up To 228 CUs), 3 CCDs (Up To 24 Zen 4 Cores), 8 HBM3 Stacks (128 GB)
    MI300X - 8 XCDs (Up To 304 CUs), 0 CCDs (Up To 0 Zen 4 Cores), 8 HBM3 Stacks (192 GB)

    其中 MI300A 就是一个最高 24 核,228CU ,128GB HBM3 内存的的 APU ,引用一下 AMD 的官方内容:

    “AMD 的 Instinct MI300 APU 系列将与名为 SH5 的全新插槽兼容,允许使用最新的 Infinity Fabric 互连和新的互连交换机将最多四个此类芯片配置在一起,以实现更快的带宽和互连速度。该服务器解决方案将以 AMD Instinct 平台的形式出现,该平台由 8 个 MI300 芯片组成,具有高达 1.5 TB 的 HBM3 内存,全部采用行业标准设计。”

    Intel 和 NV 也有类似的,其中 INTEL 的产品计划叫 Falcon Shores ,定于 2025 年发布。
    AyaseEri
        27
    AyaseEri  
       300 天前   ❤️ 1
    在一个满是学生、matlab 和 cad 需要在自己电脑跑的社区,讨论生产力,无疑是一种浪费时间的行为。
    murmur
        28
    murmur  
       300 天前
    @AyaseEri 对啊,难道你们公司和实验室买不到 A100 显卡么,这东西虽然对 H 禁售,但是想买总是有渠道的,而且不是有定制版本卖么

    至于国外,人家买 A100 又没什么难度,最多是等发货慢点

    所以个人要这么好的机器干嘛,个人就是用 2080ti o22g 就够了
    locoz
        29
    locoz  
       300 天前
    @wclebb #12 问题在于,对于只想尝鲜的人来说,跑大模型完全可以使用租机的方式解决,几万块够用很久了,使用体验完全碾压苹果,而且三分钟热度也不用担心浪费钱,配置过时了也不用担心没法升级。而对于需要实际长期使用大模型,或者是对大模型做微调,甚至是自己训练大模型的人来说,苹果那点算力又根本不够看。更别提对于绝大多数人来说根本都没有必须私有化部署的必要,几万块拿来调 GPT4 的 API 或者买别人的会员,实际使用时长都不用说,使用体验更是没法比。

    至于内存闲置利用,如果只是尝鲜这种轻度使用情况,为了跑大模型而买的大内存,那对于大内存大概率也没有需求,实际买来的内存还是在浪费;如果是重度一点的使用情况,那这内存也闲置不下来,全被大模型吃完了,跑不了什么别的东西。

    另外苹果的 XDR 显示器很大程度上是因为显示器厂商认为那个领域太过小众,面板平均水平还没提升到那种程度,没有必要特意为了小众用户而做那种产品。但对于苹果来说,自己的核心受众群体就是那部分在显示器厂商眼中小众的用户,它当然愿意去特意做个产品卖,成本也摊得开,价格在这种情况下看起来当然会有优势。

    只能说不要尬吹苹果什么高端领域价格低,那只是因为小众群体没人在乎,可选项少而已。可选项一多起来,苹果毫无价格优势。
    WuSiYu
        30
    WuSiYu  
       300 天前
    假设你能搞定一切环境的问题(没 kernel ?自己写!),m2 ultra 的唯一优势也只是显存,然而算力仅有 30TFLOPs 不到(无论是 GPU 还是 ANE ),比起主流炼丹卡 A100 的 156 FLOPS ( TF32 )就是图一乐,甚至远不如 3090 ,并且一个 10Gb 口也可以告别分布式训练了。

    唯一场景是个人玩家跑大模型和推理,或者跑龟速的 finetune ,但有这钱其实不如搞个 8 卡 3090/4090 更实用、且生态和泛用性更好
    shijingshijing
        31
    shijingshijing  
       300 天前   ❤️ 3
    苹果这个内存只是单纯的 SiP 封装了几个 LPDDR5 内存颗粒,NVIDIA 的是 CoWoS 技术封装的 HBM2e/HBM3 内存,两者根本不再一个 level 上,更不谈 NVIDIA 可怕的算力和 CUDA 生态护城河,这种吃流量的视频也就骗骗伪科技小白还可以。



    ospider
        32
    ospider  
       300 天前
    Transformer 翻译成变形金刚?非要翻译的话,也应该是变形器或者变换器。
    sickoo
        33
    sickoo  
       300 天前
    @ospider 有个电影院翻译:变性者 7 超能...
    julyclyde
        34
    julyclyde  
       300 天前
    好像,性能除以功耗之后勉强说得过去?
    但现在做这行的老板们根本不在乎功耗啊
    只看原始的性能测量值
    byicer
        35
    byicer  
       299 天前
    @sickoo #33 这翻译让人笑疯了😆
    fengtianze
        36
    fengtianze  
       299 天前
    @AOK123 八张游戏卡咋连一起,不是双卡都给阉割了?
    fengtianze
        37
    fengtianze  
       299 天前
    @aptx4689 真是不辞辛苦啊,其他帖子下刷到过一次不差的回复,见到 mac 就 ctrl v ?🤣
    aptx4689
        38
    aptx4689  
       299 天前
    @fengtianze 😅?
    phub2020
        39
    phub2020  
       298 天前
    厂家有竞争了,就是好事
    AyaseEri
        40
    AyaseEri  
       298 天前
    @echo1937 MI300A 看起来可以当 M2 Ultra 的平替?
    echo1937
        41
    echo1937  
       298 天前 via iPhone
    @AyaseEri 应该叫上位替代,这玩意肉眼可见地贵。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   884 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:23 · PVG 04:23 · LAX 13:23 · JFK 16:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.