计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (02): 298-307.
沈勇辉1,2,3,卜东旭1,2,3,张胜裕1,2,3,宋慧慧1,2,3
SHEN Yonghui1,2,3,BU Dongxu1,2,3,ZHANG Shengyu1,2,3,SONG Huihui1,2,3
摘要: 无监督视频目标分割旨在测试阶段自动定位和分割视频帧中的主要目标。目前,大多数模型、方法依赖于从RGB图提取的外观线索和从光流图提取的运动线索来进行目标分割。然而,目标遮挡、快速运动或静止等问题会导致光流获取的信息缺失,仅依靠外观分支获取的有限信息难以实现良好的分割效果。为了解决这一问题,提出了一种聚焦式学习网络模型FPLNet,该模型引入额外的双分支结构以捕捉主要目标的位置信息和轮廓信息,从而弥补光流信息的缺失。首先,所提出的模型利用分割一切模型SAM的骨干网络提取外观和运动信息,从而提高模型的泛化性。然后,将额外引入的粗粒度和细粒度的2个分割分支共同作为聚焦式学习网络的提示部分。在解码部分,RGB外观信息、光流运动信息、粗粒度特征和细粒度特征逐步融合,以此模仿人类视觉系统,实现聚焦式学习目标特征的过程。在3个标准数据集上进行了大量的测试,实验结果表明,与现有的模型相比,所提出的模型拥有更优异的性能。