计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (01): 84-91.
王习,张凯,李军辉,孔芳
WANG Xi,ZHANG Kai,LI Jun-hui,KONG Fang
摘要: 当前图像标题生成任务的主流方法是基于深层神经网络的方法,尤其是基于自注意力机制模型的方法。然而,传统的深层神经网络层次之间是线性堆叠的,这使得低层网络捕获的信息无法在高层网络中体现,从而没有得到充分的利用。提出基于残差密集网络的方法获取层次语义信息来生成高质量的图像标题。首先,为了能够充分利用网络的层次信息,以及提取深层网络中的各个层的局部特征,提出LayerRDense在层与层之间进行残差密集连接。其次,提出SubRDense,在Decoder端的每层网络中的子层中运用残差密集网络,以更好地融合图像特征和图像的描述信息。在MSCOCO 2014数据集上的实验结果表明,所提出的LayerRDense和SubRDense网络均能进一步提高图像标题生成的性能。