计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (11): 1982-1990.
吴志豪1,张德军1,吴亦奇1,陈壹林2
WU Zhi-hao1,ZHANG De-jun1,WU Yi-qi1,CHEN Yi-lin2
摘要: 随着卷积神经网络(CNN)在计算机视觉领域的广泛应用,以及大量三维视线数据集的公开,基于表观和深度学习相结合的三维视线估计研究受到越来越多的关注。由于CNN结构复杂,这类方法在实时性要求较高的应用场景中还有待进一步改进。近来兴起的研究表明,网络结构更为简单的多层感知机(MLP)模型能够取得与当前最佳CNN、Transformer模型相当的性能。受此启发,提出了一种基于MLP的高效高精度三维视线估计方法,利用MLP模型对双眼、人脸图像提取特征,之后融合推导出三维视线。实验结果表明,对MPIIFaceGaze数据集和EyeDiap数据集中包含的31位不同相貌的受试者,使用提出的方法UM-Net进行视线估计,视线估计精度比肩基于CNN的,并且在视线估计速度上具有明显优势,在实时性要求较高的领域也有较好的应用前景。