计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (1): 70-78.
饶月,马晓宁,程忠锋
RAO Yue,MA Xiaoning,CHENG Zhongfeng
摘要: 最近研究表明,深度神经网络(DNN)容易受到后门攻击,这种攻击隐蔽且强大,能让模型输出攻击者所期待的结果。针对目前后门攻击防御研究需要较高计算开销的同时还会影响模型准确率的问题,提出了一种基于通用扰动的防御框架,该框架将检测后门与消除后门的工作结合起来。检测阶段在样本集上产生能使良性样本分类错误而对后门样本无影响的扰动,通过对比待检测样本添加扰动后模型前后输出结果的变化来完成后门样本的高效检测。消除阶段将检测到的后门样本使用随机主色覆盖方法重建后与良性样本混合去重训练后门模型。在MNIST、Fashion-MNIST和CIFAR-10数据集上验证该框架在不同触发器设计、中毒比例对防御的影响以及对于特定标签攻击的防御效果。实验表明,该框架不仅能很好地降低后门攻击在不同条件下的攻击成功率,还对良性样本的分类性能几乎没有影响,同时对于特定标签攻击的防御效果相比之前的研究也有了很大的提升。