计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (08): 1433-1442.
印杰1,黄肖宇1,刘家银1,牛博威2,谢文伟3,4
YIN Jie1,HUANG Xiao-yu1,LIU Jia-yin1,NIU Bo-wei2,XIE Wen-wei3,4
摘要: 近年来,基于有监督机器学习的安卓恶意软件检测方法取得了一定进展。但是,由于恶意软件样本搜集困难,带标签的数据集规模一般较小,导致训练出的有监督模型泛化能力有限。针对这一问题,提出无监督和有监督相结合的恶意软件检测方法。首先,使用无监督方法预训练语言模型,从大量无标记APK样本中学习字节码中丰富、复杂的语义关系,提高模型的泛化能力。然后,利用有标记的恶意软件样本对语言模型进行微调,使其能更有效地检测恶意软件。在Drebin等实验数据集上的实验结果表明,相比基准方法,提出的方法泛化能力更好,检测性能更优,最高检测准确率达98.7%。