V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
495414572
V2EX  ›  程序员

本地 GPU 虚拟化怎么做?

  •  
  •   495414572 · 2023-08-01 16:10:36 +08:00 · 2371 次点击
    这是一个创建于 483 天前的主题,其中的信息可能已经有所发展或是发生改变。

    各位 V 友,小弟不才。公司最近想搞一堆显卡,想问一下有没有 V 友知道业界怎么做本地 GPU 虚拟化的,了解到阿里有 cGPU 技术。另外了解到之江实验室也有很多的本地卡,如果不是对外出售云服务,只是对内各部门使用,需要做 GPU 的虚拟化吗? https://www.nvidia.cn/data-center/graphics-cards-for-virtualization/ https://blog.csdn.net/HaoZiHuang/article/details/126972625

    16 条回复    2023-08-03 15:46:27 +08:00
    leixx
        1
    leixx  
       2023-08-01 16:14:43 +08:00
    mark ,最近公司也在开展 GPU 的项目,学习一下
    zyqv2
        2
    zyqv2  
       2023-08-01 16:17:02 +08:00 via iPhone
    NVIDIA 的 grid 驱动,vgpu license 收费;或者 kvm 的 virgl ,有性能损耗
    ysc3839
        3
    ysc3839  
       2023-08-01 16:18:36 +08:00 via Android
    内部使用的话 Docker 就行了吧,虚拟机的 GPU 虚拟化好像都要收费的
    leixx
        4
    leixx  
       2023-08-01 16:23:32 +08:00
    我们是有两个大佬,一个大佬搞内核,一个大佬搞 k8s GPU 调度,我猜想虚拟化也是底层有一套接口?然后通过 hook 的方式,接过来,走自己的逻辑? 不过虚拟化收益高吗?一般直接跑满了。
    defunct9
        5
    defunct9  
       2023-08-01 16:26:36 +08:00
    kvm
    zzz22333
        6
    zzz22333  
       2023-08-01 16:45:42 +08:00
    virtio-gpu 是一种方案,公司同事最近也在搞
    Yiukam
        7
    Yiukam  
       2023-08-01 16:46:23 +08:00   ❤️ 1
    需求不大,K8S/Docker 就好了,某地方能源集團和下屬的證券企業就是這麼玩的。玩 LLM 的話,推理無所謂,訓練就是單實例多卡或者裸機就好了。效率相差不大。

    我們自己內部也是裸機+Docker 的組合。
    kobe718
        8
    kobe718  
       2023-08-01 16:52:55 +08:00
    gpu 虚拟化需要 gpu 硬件支持 sriov
    以前 nvidia 有专门用于虚拟化的显卡叫 grid 系列,可以根据不同的 profile 来把一块高端卡分成好几块低端卡来
    但是普通的民用卡、计算卡都没有开放 sr-iov 接口
    amd 的好像有见说开放
    但没具体研究过
    cczh678
        9
    cczh678  
       2023-08-01 16:59:01 +08:00
    大哥应该是为公司的实际立项的项目来做方案的选型吧?有一家做虚拟化 GPU 的公司,趋动科技,可以了解下他们的产品,我们双方是合作关系。
    4179e1
        10
    4179e1  
       2023-08-01 17:02:33 +08:00
    MrGba2z
        11
    MrGba2z  
       2023-08-01 17:13:49 +08:00
    @defunct9

    我以为你要说 “开 ssh ,让我上去看看”
    495414572
        12
    495414572  
    OP
       2023-08-01 18:04:20 +08:00
    谢谢巨佬们指路,虽然我感觉这个 GPU 虚拟化的需求不一定大,小弟先去研究一下
    kennylam777
        13
    kennylam777  
       2023-08-01 18:56:18 +08:00 via Android
    對內不劃分權限的話,用 k8s 分配 gpu 資源已經足夠,不必像 cloud 弄成 multi tenants 的,RTX 一類家用產品也有虛擬化的限制
    https://github.com/NVIDIA/k8s-device-plugin
    rationa1cuzz
        14
    rationa1cuzz  
       2023-08-01 19:41:25 +08:00
    stoneabc
        15
    stoneabc  
       2023-08-01 19:54:12 +08:00   ❤️ 4
    有几种:
    1. NVIDIA 官方:VGPU ,这个最趋向于用户理想的虚拟化,一个 GPU 虚拟出多个 vgpu ,通给不同的虚拟机,呈现的和真实 GPU 没啥差异,图形渲染+通用计算都支持。缺点是 license 要钱。
    2. 还是 NVIDIA 官方:MIG ,现在应该只有 A100/H100/A30 支持,物理上的切分,缺点是能切分的规格很有限,只支持通用计算。
    3. 各类第三方厂商的 hook 类型“虚拟化”:阿里 cGPU ,腾讯 qGPU ,驱动等等,都是 hook GPU 驱动,再基于容器做切分,只支持通用计算,原理有点类似 vGPU ,好处是不用钱,切分非常灵活。

    不想搞云上的,那就用 NVIDIA 官方方案,或者像趋动这种三方厂商,不建议自己折腾。
    FelixChenddd
        16
    FelixChenddd  
       2023-08-03 15:46:27 +08:00
    什么卡,图形卡还是计算卡
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4067 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 10:16 · PVG 18:16 · LAX 02:16 · JFK 05:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.