计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (07): 1207-1215.
庞兴龙,朱国胜,杨少龙,李修远
PANG Xing-long,ZHU Guo-sheng,YANG Shao-long,LI Xiu-yuan
摘要: 在标注现实网络流量数据的过程中难免会造成标签错误标记的情况,导致标签数据不可避免地受到噪声污染,即样本的观测标签与真实标签存在差异。为降低噪声标签对分类器分类准确率的负面影响,考虑引入噪声的2种情况,即正确标签类型错误标记和标签类型错误拼写,并提出一种基于标签噪声纠正的网络流量分类方法,该方法利用聚类和权重划分来对观测样本进行评估和修复。在2个网络流量数据集上的实验结果表明,与3种标签噪声修复算法STC、CC和ADE相比,提出的修复算法在不同噪声比例干扰下对最终的分类结果都有一定的提升。在NSL-KDD数据集上,标签平均修复率分别提高23.00%,7.58%和2.05%左右;在MOORE数据集上,标签平均修复率分别提高35.12%,10.40%和471%左右,在最终分类模型上有较好的分类稳定性。