计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (05): 852-860.
赵金源,贾迪
ZHAO Jin-yuan,JIA Di
摘要: 由于拥挤场景中的多人姿态估计仍受检测目标较小等问题的影响,导致姿态估计准确率低,为此提出一种改进YOLOv5的多人姿态估计修正算法。首先,在YOLOv5的骨干网络中,融入跳跃注意力模块,帮助网络在图像中找到感兴趣区域;其次,在颈部网络中,利用加权双向特征金字塔提高网络对不同尺度特征图间的特征融合能力,并联合使用跳跃注意力模块与Transformer编码器,使网络获取全局信息和丰富的上下文信息;再次,在检测部分增加一个检测头,使网络对微小目标更加敏感;最后,利用网络预测得到的关键点对象信息修正姿态对象信息得到最终的多人姿态估计结果。实验结果表明,本文算法较YOLOv5在COCO数据集上AP50提高了2.2%,AP75提高了3.3%,验证了本文算法的精确性和鲁棒性。