V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
VideoCloudTech
V2EX  ›  推广

盖楼抽奖|为拿下算法 “奥斯卡”,阿里团队设计了一个冠军方案

  •  
  •   VideoCloudTech · 2021-03-31 15:11:20 +08:00 · 10547 次点击
    这是一个创建于 1362 天前的主题,其中的信息可能已经有所发展或是发生改变。

    被誉为计算机视觉领域 “奥斯卡” 的 CVPR 刚刚落下帷幕,2021 年首届 “新内容 新交互” 全球视频云创新挑战赛正火热进行中,这两场大赛都不约而同地将关注点放在了视频目标分割领域,本文将详细分享来自阿里达摩院的团队在 CVPR DAVIS 视频目标分割比赛夺冠背后的技术经验,为本届大赛参赛选手提供 “他山之石”。

    作者|负天

    与图像识别不同,AI 分析理解视频的技术门槛较高。长期以来,业界在视频 AI 技术的研究上鲜有重大突破。以 CVPR 会议难度最高的比赛之一 DAVIS ( Densely Annotated Video Segmentation )为例,该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息,过去几年,全球顶级科技在该比赛中的成绩从未突破 80 分,而达摩院的模型最终在 test-challenge 上取得了 84.1 的成绩。

    DAVIS 的数据集经过精心挑选和标注,视频分割中比较难的点都有体现,比如:快速运动、遮挡、消失与重现、形变等。DAVIS 的数据分为 train ( 60 个视频序列),val ( 30 个视频序列),test-dev ( 30 个视频序列),test-challenge ( 30 个视频序列)。其中 train 和 val 是可以下载的,且提供了每一帧的标注信息。对于半监督任务,test-dev 和 test-challenge,每一帧的 RGB 图片可以下载,且第一帧的标注信息也提供了。算法需要根据第一帧的标注 mask,来对后续帧进行分割。分割本身是 instance 级别的。

    阿里达摩院:像素级视频分割

    阿里达摩院提供了一种全新的空间约束方法,打破了传统 STM 方法缺乏时序性的瓶颈,可以让系统基于视频前一帧的画面预测目标物体下一帧的位置;此外,阿里还引入了语义分割中的精细化分割微调模块,大幅提高了分割的精细程度。最终,精准识别动态目标的轮廓边界,并且与背景进行分离,实现像素级目标分割。

    基本框架

    达摩院的算法基于 2019 年 CVPR 的 STM 做了进一步改进。STM 的主要思想在于,对于历史帧,每一帧都编码为 key-value 形式的 feature 。预测当前帧的时候,以当前帧的 key 去和历史帧的 key 做匹配。匹配的方式是 non-local 的。这种 non-local 的匹配,可以看做将当前 key,每个坐标上的 C 维特征,和历史每一帧在这个坐标上的 C 维特征做匹配。匹配得到的结果,作为一个 soft 的 index,去读取历史 value 的信息。读取的特征和当前帧的 value 拼接起来,用于后续的预测。

    三大技术创新

    1. 空间约束

    STM 的特征匹配方式,提供了一种空间上的长依赖, 类似于 Transformer 中,通过 self-attention 来做序列关联。这种机制,能够很好地处理物体运动、外观变化、遮挡等。但也有一个问题,就是缺乏时序性,缺少短时依赖。当某一帧突然出现和目标相似的物体时,容易产生误召回。在视频场景中,很多情况下,当前帧临近的几帧,对当前帧的影响要大于更早的帧。基于这一点,达摩院提出依靠前一帧结果,计算 attention 来约束当前帧目标预测的位置,相当于对短期依赖的建模。

    具体的方法如下图所示:

    1. 当前帧的特征和前一帧的预测 mask 在 channel 维度上做 concat,得到 HxWx (c+1) 的特征;
    2. 通过卷积将特征压缩为 HxW ;
    3. 用 sigmoid 函数将 HxW 的特征,压缩范围,作为空间 attention ;
    4. 把 attention 乘到原特征上,作为空间约束。

    下图为空间 attention 的可视化结果,可以看到大致对应了前景的位置。

    2. 增强 decoder

    达摩院引入了语义分割中的感受野增强技术 ASPP 和精细化分割的微调( refinement )模块。ASPP 作用于 memory 读取后的特征,用于融合不同感受野的信息,提升对不同尺度物体的处理能力。

    3. 训练策略

    达摩院提出了一个简单但是有效的训练策略,减少了训练阶段和测试阶段存在的差异,提升了最终效果。

    原始 STM 训练时,会随机从视频中采样 3 帧。这三帧之间的跳帧间隔,随着训练逐渐增大,目的是增强模型鲁棒性。但达摩院发现,这样会导致训练时和测试时不一致,因为测试时,是逐帧处理的。为此,在训练的最后阶段,达摩院将跳帧间隔重新减小,以保证和测试时一致。

    其他

    backbone: 达摩院使用了 ResNeST 这个比较新的 backbone,它可以无痛替换掉原 STM 的 resnet 。在结果上有比较明显提升。

    测试策略: 达摩院使用了多尺度测试和 model ensemble 。不同尺度和不同 model 的结果,在最终预测的 map 上,做了简单的等权重平均。

    显存优化: 达摩院做了一些显存优化方面的工作,使得 STM 在多目标模式下,可以支持大尺度的训练、测试,以及支持较大的 memory 容量。

    数据: 训练数据上,达摩院使用了 DAVIS 、Youtube-VOS,以及 STM 原文用到的静态图像数据库。没有其他数据。

    结果

    达摩院的模型,最终在 test-challenge 上取得了 84.1 的成绩。

    在 test-dev 上的消融实验。达摩院复现的 STM 达到了和原文一致的结果。在各种 trick 的加持下, 得到了 11 个点的提升。

    随着互联网技术、5G 技术等的发展,短视频、视频会议、直播的场景越来越多,视频分割技术也将成为不可或缺的一环。比如,在视频会议中,视频分割可以精确区分前背景,从而对背景进行虚化或替换;在直播中,用户只需要站在绿幕前,算法就实时替换背景,实现一秒钟换新直播间;在视频编辑领域,可以辅助进行后期制作。

    参考

    1. Oh SW, Lee JY, Xu N, Kim SJ. Video object segmentation using space-time memory networks. InProceedings of the IEEE International Conference on Computer Vision 2019
    2. Wang X, Girshick R, Gupta A, He K. Non-local neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition 2018

    “新内容 新交互” 全球视频云创新挑战赛算法挑战赛道

    本届全球视频云创新挑战赛是由阿里云联手英特尔主办,与优酷战略技术合作,面向企业以及个人开发者的音视频领域的挑战赛。算法挑战赛道聚焦视频人像分割领域,视频分割将传统图像分割问题延伸到视频领域,可服务于视频理解处理和编辑等任务。

    算法赛道描述

    本次大赛提供一个大规模高精度视频人像分割数据集,供参赛选手训练模型。不同于传统的二值分割目标(即人像区域标注为 1,其他区域标注为 0 ),本竞赛重点关注分割各个不同的人象实例,目标是从视频中精确、稳定分割出显著的(单个或多个)人体实例,以及其相应附属物、手持物。

    本次比赛分为初赛数据集和复赛数据集。复赛数据集等初赛结束后公布,复赛中也可以使用初赛数据集。

    初赛环节提供训练集供选手下载,训练数据集共 1650 段视频。训练集中每个样本由 RGB 图像序列和掩码图像序列组成,RGB 图像序列为原始视频图像序列,格式为 jpg 文件;掩码图像为人体分割的真值 (ground-truth),格式为 png 文件,掩码图像中不同的像素值表示不同的人体实例,0 为背景区域,非 0 为前景区域(例如 1 为人像 1,2 为人像 2 )。RGB 和 png 文件是一一对应关系。数据集每个视频的长度为 80 帧~ 150 帧,每个视频的分辨率不完全相同。预赛的测试数据为 48 段视频。测试集只提供 RGB 图像序列。如出现多个人像实例,每个人像可以任意顺序标注,评测时将被独立计算。

    本次比赛允许参数选手使用其他公开数据集和公开模型,但参赛选手的模型必须满足能在限定时间内复现的要求,复现精度小于规定误差。

    评估标准

    对于算法恢复的视频结果,本次比赛采用 Mean J And F 做为评价指标。J 为描述分割人体区域精度的 Jaccard Index,F 为描述分割人体的边界精确度。具体请参照参考文献 1 。每个视频允许选手最多输出 8 个人物分割结果,选手分割结果与真值先进行 IOU 匹配,找到对应的人物后,根据该结果进行评分。多余的分割结果,没有惩罚。如果超过 8 个区域,整个视频结果无效。

    奖项设置

    冠军:1 支队伍,奖金 9 万人民币,颁发获奖证书

    亚军:2 支队伍,奖金 3 万人民币,颁发获奖证书

    季军:3 支队伍,奖金 1 万人民币,颁发获奖证书

    Cooper Lake 最佳实践:3 支队伍,奖金 2 万人民币,颁发获奖证书

    此外,复赛审核通过的排名前 12 队伍,可进入阿里云校招绿色通道。

    视频云大赛正在火热报名中 扫码或点击下方链接,一起驱动下一代浪潮! https://tianchi.aliyun.com/competition/entrance/531873/introduction


    楼层抽奖规则

    • 评论回复内容不限,可以是视频云大赛相关提问、期望
    • 抽十个人,每人送一个保温杯
    • 截止日期为:2021.4.2 12:00
    • 从回复楼层中随机抽取
    • 中奖结果会以附言形式公布于本帖,并 @ 各位中奖用户
    function createRandom(num,from,to)
    {
        var arr=[]; 
        var json={};  
        while(arr.length<num)
        {
            var ranNum=Math.round(Math.random()*(to-from))+from;
            if(!json[ranNum])
            {
                json[ranNum]=1;
                arr.push(ranNum); 
            }
        }
        return arr;
    }
    
    createRandom(10,0,回复楼层) //抽奖
    
    

    源码引自 yedanbo/createRandom().js

    礼物图片 盖楼超 100 层,下次活动送电脑包~

    第 1 条附言  ·  2021-04-02 12:09:51 +08:00


    恭喜:
    @server @dream7758522 @Microi @zhaidoudou123 @sinux @honeyshine75 @magicnobob @ervqq @auto8888 @ZHanYao

    辛苦各位邮寄信息发送到 videocloudtech#gmail.com ,# 替换为 @ 。

    姓名+电话+地址+V2EX 帐号截图(确认身份)

    迫于大家的热情,清明节之后我们还会再办一次盖楼活动,欢迎再来玩 :P


    例子:
    411 条回复    2021-04-06 09:43:02 +08:00
    1  2  3  4  5  
    hatw
        201
    hatw  
       2021-04-01 09:25:32 +08:00
    4.1 快乐
    forYou
        202
    forYou  
       2021-04-01 09:26:25 +08:00
    虽然看不懂,但感觉很牛逼的样子。加油云
    icount
        203
    icount  
       2021-04-01 09:26:26 +08:00
    4.1: 啥,我中奖了
    kfxsbw
        204
    kfxsbw  
       2021-04-01 09:27:15 +08:00
    有枸杞,少个保温杯。谢谢!!
    checkzhzzzzz
        205
    checkzhzzzzz  
       2021-04-01 09:28:37 +08:00
    414141
    zhifanlo
        206
    zhifanlo  
       2021-04-01 09:32:31 +08:00
    虽然看不懂,但是我又是日常中奖了
    terencehan
        207
    terencehan  
       2021-04-01 09:35:26 +08:00
    我又中奖啦
    mastcer
        208
    mastcer  
       2021-04-01 09:35:50 +08:00
    4.1
    DonaldY
        209
    DonaldY  
       2021-04-01 09:36:04 +08:00
    4.1 分子
    3CH0
        210
    3CH0  
       2021-04-01 09:37:06 +08:00
    正缺个保温杯
    wish2046
        211
    wish2046  
       2021-04-01 09:37:57 +08:00
    提问保温杯怎么拿
    cking
        212
    cking  
       2021-04-01 09:40:45 +08:00
    1111 我要保温杯
    brokenQ
        213
    brokenQ  
       2021-04-01 09:41:10 +08:00
    中奖啦
    YUCOAT
        214
    YUCOAT  
       2021-04-01 09:41:11 +08:00
    虽然我看不懂,但是很厉害的样纸
    yhan
        215
    yhan  
       2021-04-01 09:41:57 +08:00
    哇好厉害的保温杯
    izdour
        216
    izdour  
       2021-04-01 09:44:26 +08:00
    分子
    sdalkesioe
        217
    sdalkesioe  
       2021-04-01 09:44:26 +08:00
    达摩院这个有点厉害了!
    chengego
        218
    chengego  
       2021-04-01 09:45:20 +08:00
    虽然看不懂,但是我又是日常中奖了
    skymei
        219
    skymei  
       2021-04-01 09:45:56 +08:00
    分母来了
    a194259440
        220
    a194259440  
       2021-04-01 09:46:23 +08:00
    盖楼
    Eugene1024
        221
    Eugene1024  
       2021-04-01 09:51:21 +08:00
    感觉有点厉害啊
    grewer
        222
    grewer  
       2021-04-01 09:53:04 +08:00
    保温杯+1
    lzj307077687
        223
    lzj307077687  
       2021-04-01 09:53:08 +08:00
    分母分母~
    xkeyideal
        224
    xkeyideal  
       2021-04-01 09:54:31 +08:00
    真小气,大厂抽奖就送保温杯,辣鸡
    k1z
        225
    k1z  
       2021-04-01 09:55:05 +08:00
    虽然我看不懂,但是很厉害的样纸
    lixuedong
        226
    lixuedong  
       2021-04-01 09:55:36 +08:00
    yoke97
        227
    yoke97  
       2021-04-01 09:57:45 +08:00
    分子
    huayumo
        228
    huayumo  
       2021-04-01 09:58:54 +08:00
    保温杯
    YulChigga
        229
    YulChigga  
       2021-04-01 10:01:17 +08:00
    41
    akiyama
        230
    akiyama  
       2021-04-01 10:02:14 +08:00
    分子
    paullw
        231
    paullw  
       2021-04-01 10:04:03 +08:00
    保温本挺好看的🤪
    wjup
        232
    wjup  
       2021-04-01 10:04:43 +08:00
    厉害
    huiyifyj
        233
    huiyifyj  
       2021-04-01 10:05:33 +08:00
    分母
    lzy250
        234
    lzy250  
       2021-04-01 10:05:33 +08:00
    ~~~~~~~~~~~~~
    bage2020
        235
    bage2020  
       2021-04-01 10:06:12 +08:00
    Y 愚人节快乐
    xxdd
        236
    xxdd  
       2021-04-01 10:07:43 +08:00
    分子来了~~
    acgost
        237
    acgost  
       2021-04-01 10:07:59 +08:00
    自愿被愚,我来组成分母
    dbres
        238
    dbres  
       2021-04-01 10:09:05 +08:00
    这是真的吗
    wha2020
        239
    wha2020  
       2021-04-01 10:11:24 +08:00
    愚人节快乐,这么厉害佩服佩服!
    WangLiCha
        240
    WangLiCha  
       2021-04-01 10:12:03 +08:00
    分母
    yingxiu
        241
    yingxiu  
       2021-04-01 10:14:21 +08:00
    没看懂,貌似很牛
    HolmLoh
        242
    HolmLoh  
       2021-04-01 10:15:21 +08:00
    分母
    ylqf5461
        243
    ylqf5461  
       2021-04-01 10:16:07 +08:00
    我中了?
    albyBen
        244
    albyBen  
       2021-04-01 10:16:46 +08:00
    保温杯配枸杞
    XGF
        245
    XGF  
       2021-04-01 10:17:48 +08:00
    送两个人?
    letuslinux
        246
    letuslinux  
       2021-04-01 10:18:07 +08:00
    也不知道说什么好,那就提前祝大家新年快乐吧!
    freenull
        247
    freenull  
       2021-04-01 10:19:54 +08:00
    ++1
    iamdavidzeng
        248
    iamdavidzeng  
       2021-04-01 10:20:01 +08:00
    chongchongchong!!
    qqq8724
        249
    qqq8724  
       2021-04-01 10:21:43 +08:00
    这是以什么方式举行的比赛,期待一下
    nznd
        250
    nznd  
       2021-04-01 10:21:47 +08:00
    分母来了
    wangshijiejay
        251
    wangshijiejay  
       2021-04-01 10:22:03 +08:00
    需要我司保温杯
    dooonabe
        252
    dooonabe  
       2021-04-01 10:22:27 +08:00 via Android
    分子
    7huixiang
        253
    7huixiang  
       2021-04-01 10:24:02 +08:00
    来个杯子
    Craig37
        254
    Craig37  
       2021-04-01 10:25:34 +08:00
    达摩院在青山湖?
    xinlinqi
        255
    xinlinqi  
       2021-04-01 10:27:39 +08:00
    组成分子
    fanfpy
        256
    fanfpy  
       2021-04-01 10:27:47 +08:00
    看不懂,凑个热闹
    loadingimg
        257
    loadingimg  
       2021-04-01 10:27:53 +08:00
    模型开源吗?
    fangaoxs0701
        258
    fangaoxs0701  
       2021-04-01 10:27:56 +08:00
    来了
    Rekkles
        259
    Rekkles  
       2021-04-01 10:28:17 +08:00
    分子咯~
    JohnWangggg
        260
    JohnWangggg  
       2021-04-01 10:28:45 +08:00
    Comma
        261
    Comma  
       2021-04-01 10:29:43 +08:00
    有点厉害
    hirasawayui
        262
    hirasawayui  
       2021-04-01 10:30:14 +08:00
    视频云大赛相关提问、期望
    ishengge
        263
    ishengge  
       2021-04-01 10:34:14 +08:00
    枸杞加保温杯。能中?
    coderljx
        264
    coderljx  
       2021-04-01 10:36:08 +08:00
    4 。1
    goodryb
        265
    goodryb  
       2021-04-01 10:40:28 +08:00
    分母来了
    DylanZ
        266
    DylanZ  
       2021-04-01 10:41:18 +08:00
    虽然看不懂,但是我又是日常中奖了
    kakakafka
        267
    kakakafka  
       2021-04-01 10:42:14 +08:00
    虽然我看不懂,但是很厉害的样子
    asturias
        268
    asturias  
       2021-04-01 10:42:16 +08:00
    看着晕
    zxCoder
        269
    zxCoder  
       2021-04-01 10:43:35 +08:00
    我中了
    liupcool
        270
    liupcool  
       2021-04-01 10:49:24 +08:00
    当一次分子行吗?
    izzy27
        271
    izzy27  
       2021-04-01 10:51:29 +08:00
    666
    kaliend
        272
    kaliend  
       2021-04-01 10:52:31 +08:00
    分子分子
    zhangslob669
        273
    zhangslob669  
       2021-04-01 10:53:28 +08:00
    分子+1
    soyakultg
        274
    soyakultg  
       2021-04-01 10:54:40 +08:00
    1
    ZHanYao
        275
    ZHanYao  
       2021-04-01 10:54:43 +08:00
    10/274
    Sikoay
        276
    Sikoay  
       2021-04-01 10:55:38 +08:00
    41 阿里云的包还挺不错
    timedivision
        277
    timedivision  
       2021-04-01 10:56:04 +08:00
    分母分母
    arvinwangzj
        278
    arvinwangzj  
       2021-04-01 10:57:46 +08:00
    分子分子
    naodai
        279
    naodai  
       2021-04-01 10:58:23 +08:00
    ++++1
    Aries
        280
    Aries  
       2021-04-01 11:01:25 +08:00
    只能哇塞了,愿做个分子
    JustinJie
        281
    JustinJie  
       2021-04-01 11:01:36 +08:00
    分子分子
    iphantom
        282
    iphantom  
       2021-04-01 11:02:21 +08:00
    缺个电脑包 来一个 哈哈哈
    duowb
        283
    duowb  
       2021-04-01 11:02:33 +08:00
    你们就说哇塞不哇塞吧
    mgrddsj
        284
    mgrddsj  
       2021-04-01 11:05:14 +08:00
    不明觉厉,日常当分母。
    euxwni
        285
    euxwni  
       2021-04-01 11:05:59 +08:00
    ----1
    jianghaifei
        286
    jianghaifei  
       2021-04-01 11:07:10 +08:00
    来了来了
    DaGongRen001
        287
    DaGongRen001  
       2021-04-01 11:11:17 +08:00
    愚人节活动?
    ymoeu06
        288
    ymoeu06  
       2021-04-01 11:11:37 +08:00 via Android
    分子来了
    shadowsliver
        289
    shadowsliver  
       2021-04-01 11:12:39 +08:00
    太厉害了,虽然一直受各路算法大佬的打击,但是越看各种先进的算法我想学算法的心就越火热
    OMGZui
        290
    OMGZui  
       2021-04-01 11:13:09 +08:00
    111
    zzzdown
        291
    zzzdown  
       2021-04-01 11:13:37 +08:00
    来了来了
    TORYOI
        292
    TORYOI  
       2021-04-01 11:14:22 +08:00
    厉害
    wasky
        293
    wasky  
       2021-04-01 11:16:11 +08:00
    分子
    cagev5
        294
    cagev5  
       2021-04-01 11:19:06 +08:00
    等待中,我啥都缺。
    Slf4j
        295
    Slf4j  
       2021-04-01 11:19:19 +08:00
    分子分子
    JR1024
        296
    JR1024  
       2021-04-01 11:19:34 +08:00
    分母?
    ro2020
        297
    ro2020  
       2021-04-01 11:23:05 +08:00
    分母
    shm7
        298
    shm7  
       2021-04-01 11:23:40 +08:00
    分子料理很酸。
    ooozx
        299
    ooozx  
       2021-04-01 11:27:59 +08:00
    啥都没看懂,就要当分母?我来当分子了!
    MOONLIGHTT
        300
    MOONLIGHTT  
       2021-04-01 11:28:24 +08:00
    分子分子
    1  2  3  4  5  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1521 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 16:41 · PVG 00:41 · LAX 08:41 · JFK 11:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.