计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (08): 1503-1512.
马冬梅,王鹏宇,郭智浩
MA Dong-mei,WANG Peng-yu,GUO Zhi-hao
摘要: 语义分割是一种计算机视觉技术,它需要从大量的图像中提取出重点信息,然后通过掩膜的方式,将这些信息转化成更加清晰、易于理解的表达形式。研究人员正在努力寻求一种平衡,在保证模型精度的同时,尽可能减小模型的体积,这也是当前设计轻量级网络模型的热门话题。当前,图像语义分割技术存在许多挑战,如分割不连续、错误分割和模型复杂度过高。为了解决这些问题,提出了一种基于注意力机制的轻量级语义分割模型。该模型采用冻结解冻训练,特征提取网络是MobileNetV2,为了恢复较清晰的目标边界,在空洞金字塔池化(ASPP)输出部分引入轻量级的卷积注意力(CBAM)模块或在解码部分引入通道注意力(ECA-Net);为了解决样本不均衡的问题,引入了focal_loss损失函数;使用了混合精度和替换了输出端的标准卷积——DO-Conv卷积,在PASCAL VOC 2012和Cityscapes数据集上进行实验和验证,模型的大小为23.6 MB,平均交并比分别为73.91%和74.89%,类别平均像素准确率分别82.88%和84.87%,成功地在精确分割和计算效率之间取得了平衡。