基于网络融合的改进MobileViT人脸表情识别

计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (6): 1072-1080.

基于网络融合的改进MobileViT人脸表情识别

邓翔宇,裴浩媛,盛迎

（西北师范大学物理与电子工程学院,甘肃兰州 730070）

收稿日期:2023-04-26 修回日期:2023-10-13 出版日期:2024-06-25 发布日期:2024-06-18

Facial expression recognition based on network fusion to improve MobileViT

DENG Xiang-yu,PEI Hao-yuan,SHENG Ying

(College of Physics and Electronic Engineering，Northwest Normal University，Lanzhou 730070，China)

Received:2023-04-26 Revised:2023-10-13 Online:2024-06-25 Published:2024-06-18

摘要/Abstract

摘要： 从轻量化模型的角度提出一种基于网络融合的改进MobileViT人脸表情识别网络。该网络将多尺度卷积PSConv和注意力机制通过残差结构进行融合，形成RAPSConv特征重构模块，该模块能从细粒度角度更高效地提取多尺度特征，加强关键特征表达，进而提高网络的表达能力，构建出一个端到端的表情识别网络。同时，为了进一步缩小同类表情间差距，提出联合使用Softmax Loss和Center Loss损失函数，有效减少了表情识别的误判率。实验结果表明，改进后的网络在3个自然场景表情数据集FER2013、FER+和RAF-DB上的准确率均优于基础网络MobileViT，准确率分别提高了1.73%，2.18%和1.64%，改进后的网络参数量较少，鲁棒性较强，便于实现轻量化和集成，适合人脸表情识别在现实场景中的应用。

关键词: 人脸表情识别, MobileViT, 多尺度卷积PSConv, 注意力机制, 网络融合, 轻量化网络

Abstract: From the perspective of lightweight models, a facial expression recognition network based on network fusion to improve MobileViT is proposed. This network integrates multi-scale convolution PSConv and attention mechanisms through residual structures to form the RAPsconv feature reconstruction module. This module can more efficiently extract multi-scale features from a fine-grained perspective, enhancing the expression of key features, thereby improving the network's expressive ability and constructing an end-to-end facial expression recognition network. Additionally, to further narrow the gap between similar expressions, a loss function combining Softmax Loss and Center Loss is proposed, effectively reducing the misjudgment rate of expression recognition. Experimental results demonstrate that the improved network achieves higher accuracy on three natural scene expression datasets FER2013, FER+, and RAF-DB compared to the base network MobileViT, with accuracy improvements of 1.73%, 2.18%, and 1.64%, respectively. The improved network has fewer parameters, stronger robustness, and is suitable for lightweighting and integration, making it suitable for real-world applications in facial expression recognition.

Key words: facial expression recognition, MobileViT, multi-scale convolutional PSConv, attention mechanism, network fusion, lightweight network

邓翔宇, 裴浩媛, 盛迎. 基于网络融合的改进MobileViT人脸表情识别[J]. 计算机工程与科学, 2024, 46(6): 1072-1080.

DENG Xiang-yu, PEI Hao-yuan, SHENG Ying. Facial expression recognition based on network fusion to improve MobileViT[J]. Computer Engineering & Science, 2024, 46(6): 1072-1080.

[1]	刘畅, 徐炜遐. CNN-ViTAMR：一种基于Transformer的自动信号调制识别算法及其轻量化实现#br#[J]. 计算机工程与科学, 2025, 47(8): 1408-1416.
[2]	吐尔地·托合提1, 2, 罗长虹1, 2, 艾斯卡尔·艾木都拉1, 2. 文本问答中基于双向叠加注意力的证据区间预测[J]. 计算机工程与科学, 2025, 47(8): 1470-1482.
[3]	陈俊彦1, 李欣梅1, 朱昌洪2, 肖微3. 基于多视图图注意力机制的软件定义光传输网络路由优化算法[J]. 计算机工程与科学, 2025, 47(7): 1193-1204.
[4]	李莉, 张晴, 孔悠然, 苏仁嘉, 赵鑫. 基于生成对抗网络的恶意代码变体家族溯源方法[J]. 计算机工程与科学, 2025, 47(7): 1215-1225.
[5]	林毅1, 2, 3, 宋慧慧1, 2, 3. 用于全色锐化的金字塔特征解耦提取融合网络[J]. 计算机工程与科学, 2025, 47(7): 1262-1273.
[6]	张凤1, 邵玉斌1, 杜庆治1, 龙华1, 马迪南2. 基于双通道图卷积网络的多模态方面级情感分析[J]. 计算机工程与科学, 2025, 47(7): 1321-1330.
[7]	周丰峻, 康怀强, 高伸, 李锋, 孙云厚, 高航, 马芃晟. 基于改进的YOLOv8模型对地下工程混凝土裂纹的检测识别[J]. 计算机工程与科学, 2025, 47(6): 1079-1089.
[8]	敬容1, 万福成1, 2, 黄锐1, 于洪志1, 2, 马宁1, 2. 融合降噪微调与图注意力机制的藏文长文本分类[J]. 计算机工程与科学, 2025, 47(6): 1133-1140.
[9]	马汉达, 李腾飞. 基于注意力机制的特征融合推荐模型[J]. 计算机工程与科学, 2025, 47(5): 902-911.
[10]	王莹, 杨青, 王翔宇, 张勇, . 基于非对称空间特征的脑电信号情感分析研究[J]. 计算机工程与科学, 2025, 47(5): 921-930.
[11]	梁佳杰, 徐慧英, 朱信忠, 王舒梦, 刘子洋, 李琛. 基于改进的YOLOv8n海洋动物目标检测算法：DPSC-YOLO[J]. 计算机工程与科学, 2025, 47(4): 695-705.
[12]	朱西平, 高昂, 肖丽娟. 融合双词典的农作物病虫害命名实体识别[J]. 计算机工程与科学, 2025, 47(4): 718-727.
[13]	张梦圆, 端阳, 王彬彬, 张蕾, 吴裔, 刘畅, 郭乃网, 程大伟. 基于深度对抗网络的动态图生成模型研究[J]. 计算机工程与科学, 2025, 47(4): 728-739.
[14]	徐雯, 于瓅. 基于迭代收缩阈值与深度学习的压缩感知图像重构网络[J]. 计算机工程与科学, 2025, 47(3): 485-493.
[15]	李娇, 高磊怡, 张瑞欣, 吴越, 邓红霞. 基于脉冲注意力机制的轻量化面部超分重建方法[J]. 计算机工程与科学, 2025, 47(3): 494-503.