计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (4): 743-751.
王春丽,陈善立,刘素倩,赵小春
WANG Chunli,CHEN Shanli,LIU Suqian,ZHAO Xiaochun
摘要: 提出了一种基于显著性检测器与具有衰减掩码的多头自注意力结合的声学模型,此模型可以在执行声音事件检测与定位任务时更好地关注空间信息。通过显著性检测器在局部信息内关注显著性高的部分,使模型更加关注信息丰富度高的类别。其次在多头自注意力模块中引入了衰减掩码,这种设计可以使模型更加专注于局部信息,引入自适应约束使注意力头多样化。实验结果表明,提出的模型相较于基线模型性能更好,与融合Transformer和Multi-scale模型相比较,所提模型具有更优的检测与定位效果。最后利用视频信息充当额外数据来提升性能,表现出良好的性能。