计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (3): 521-530.
童立靖,英溢卓,曹楠
TONG Lijing,YING Yizhuo,CAO Nan
摘要: 针对三维人体姿态估计不易捕捉人体关节序列的全局特征、估计精度不高的问题,提出了一种融合语义图卷积与自注意力机制的三维人体姿态估计方法。首先,为提升从二维人体姿态序列映射到三维人体姿态序列过程中的特征提取效果,在语义图卷积网络中融入自注意力机制,进行基于局部特征与全局特征相融合的空间特征提取;其次,对MLP-Mixer网络的通道混合模块加以改进,引入了语义图卷积网络与U型MLP结构进行时序特征的提取;最后,基于二维人体图像的融合特征与提取的时序特征进行三维人体姿态估计。在三维人体姿态估计数据集Human3.6M上进行实验,将所提出的方法与当前主流的三维人体姿态估计方法进行对比,实验结果表明该方法在平均误差指标MPJPE和PA-MPJPE上相比次优方法分别下降约4.5 mm和0.2 mm,实验结果验证了所提出方法的有效性。