计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (09): 1602-1610.
曾凡锋,王春真,李琛
ZENG Fan-feng,WANG Chun-zhen,LI Chen
摘要: 针对现有无监督视频摘要算法对视频帧重要性判断不准确的问题,提出一种基于深浅层特征融合的无监督视频摘要算法。视频帧的深层特征由卷积神经网络(CNN)进行提取;浅层特征先由加速稳健特征(SURF)算子提取,再使用词袋(BOW)模型进行编码;最后将深层特征与浅层特征进行融合,丰富特征描述符的信息,作为网络模型的输入。使用双向长短期记忆网络(BiLSTM)对时序信息建模并输出帧重要性得分,采用强化学习的方式优化模型。在生成静态视频摘要时,设计了一个基于局部极大值的关键帧筛选方法,遵循了原视频的时序结构同时避免冗余。在SumMe和TVSum数据集上与多个无监督视频摘要算法进行对比,实验结果表明所提算法能够对视频内容做出更准确的判断,并生成了更高质量的摘要。