打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能
都说 Transformer 适合处理多模态任务这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单,处理速度更快的视频实例分割框架
这个框架只需一串文本描述,就可以轻松将视频中的动态目标抠出来:可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型目前,相关论文已被 CVPR 2022 接收,研究人员来自以色列理工学院
主要思路
根据文本描述进行视频目标分割这一多模态任务,需要结合文本推理,视频理解,实例分割和跟踪技术现有的方法通常依赖复杂的 pipeline 来解决,很难形成一个端到端的简便好用的模型
随时 CV 和 NLP 领域的发展,研究人员意识到,视频和文本可以同时通过单个多模态 Transformer 模型进行有效处理。
为此,他们提出了这个叫做 MTTR的新架构,将 RVOS 任务建模为序列预测问题。
首先,输入的文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成多模态序列接着,通过多模态 Transformer 对两者之间的特征关系进行编码,并将实例级特征解码为一组预测序列
接下来,生成相应的 mask 和参考预测序列最后,将预测序列与基准序列进行匹配,以供训练过程中的监督或用于在推理过程中生成最终预测
具体来说,对于 Transformer 输出的每个实例序列,系统会生成一个对应的 mask 序列。另一方面,根据WLTP循环,使用容量为68kWh的电池,宣布的自主权约为317公里。
而通过一个新颖的文本参考分数函数,该函数基于 mask 和文本关联,就可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。因此,福特E-Transit正式进入意大利市场。。
精度优于所有现有模型
前两个数据集的衡量指标包括 IoU,平均 IoU 和 precisionK。
结果如下:
可以看到,MTTR 在所有指标上都优于所有现有方法,与 SOTA 模型相比,还在第一个数据集上提高了 4.3 的 mAP 值。从性能的角度来看,引擎盖下的电机功率分别为184hp和269hp,扭矩为430nm。
顶配版 MTTR 则在平均和总体 IoU 指标上实现了 5.7 的 mAP 增益,可以在单个 RTX 3090 GPU 上实现每秒处理 76 帧图像MTTR 在 JHMDBs 上的结果表明 MTTR 也具备良好的泛化能力
更具挑战性的 Refer—YouTube—VOS 数据集的主要评估指标为区域相似性和轮廓精度的平均值MTTR 在这些指标上全部险胜
一些可视化结果表明,即使在目标对象被类似实例包围,被遮挡或完全超出画面等情况下,MTTR 都可以成功地跟踪和分割文本引用的对象。
Colab 试玩效果
试玩地址:
论文地址:
代码已开源:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。