V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wxd21020
V2EX  ›  OpenAI

监控智算中心设备,包括 GPU 等

  •  
  •   wxd21020 · 153 天前 · 1129 次点击
    这是一个创建于 153 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一个千卡,甚至是万卡级的智算中心,我们想做个监控平台,来监控这个智算中心 GPU 、算力、电量等等一些参数,主要是想看每个卡及整个智算中心的使用情况以及物理卡是否被人掉包等情况,老哥们有啥点子没?

    7 条回复    2024-07-29 11:31:39 +08:00
    WorldDominator
        1
    WorldDominator  
       153 天前
    这种运维超级麻烦,机器一多光是光模块掉线就够头疼了,国内有能力运维万卡集群的估计是个位数公司
    监控设备厂商有解决方案可以直接买的,这种卡都是焊接的也没法掉包吧。一定要自己搞 ipmi api 可以,npu 信息可以从类似 nvidia-smi 的输出里解析
    julyclyde
        2
    julyclyde  
       153 天前
    你可以问问 AI 应该怎么做啊
    wxd21020
        3
    wxd21020  
    OP
       153 天前
    @WorldDominator 我们主要就输作为投资方想监控设备及使用情况。就是想通过 api 进行调用监控。
    @julyclyde 还真是忘了问 GPT 了
    qaz999
        4
    qaz999  
       153 天前
    有预算吗,我们这有现成的商业平台。
    wxd21020
        5
    wxd21020  
    OP
       153 天前
    @qaz999 可以给领导提一下,看看后续是否要采购,能给介绍一下产品吗?
    qaz999
        6
    qaz999  
       153 天前
    @wxd21020 来个微信?
    wxd21020
        7
    wxd21020  
    OP
       153 天前
    @qaz999 就是 V2 的 id
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2831 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 14:16 · PVG 22:16 · LAX 06:16 · JFK 09:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.