计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (04): 654-664.
崔弘1,赵双2,张广胜3,苏金树2
CUI Hong1,ZHAO Shuang2,ZHANG Guang-sheng3,SU Jin-shu2
摘要: 随着移动网络的迅速发展,越来越多的用户选择使用代理应用,以保护个人网络隐私,隐藏上网行为或绕开网络活动限制,给网络管理与审计带来了新的挑战。与此同时,恶意攻击者可利用代理应用隐藏身份,使得恶意行为更难以检测和防范。因此,代理应用流量识别对网络管理与安全具有重要的作用,但目前该问题并未得到充分的研究。由于代理应用流量通常经过加密或混淆处理,传统的流量识别技术无法被有效应用。为实现准确、快速的移动代理应用流量识别,提出一组与负载无关的流量特征,并首次加入TCP层option字段用于刻画流量。基于4种机器学习算法训练的分类器和2种流量识别对象,验证提出的特征对识别移动代理应用流量的有效性,并对各类特征的重要性进行分析。实验结果表明,提出的特征能有效识别代理应用流量。在识别流量是否经由代理时,基于随机森林的分类器可达到99%以上的整体准确率。识别流量所属代理应用时,整体准确率高于94%。在公开数据集ISCX VPN-nonVPN上与其他方法相比,提出的方法识别准确率更高,并具有更快的识别速度,适合实时流量识别场景。