计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (07): 1170-1177.
刘屹成,刘晓燕,严馨
LIU Yi-cheng,LIU Xiao-yan,YAN Xin
摘要: 级联支持向量机CSVM通过对数据集进行分组,基于子数据集并行训练,极大地缩短了训练时间、减少了内存占用,但使用该方法得到的模型与直接训练得到的模型相比存在一定误差。首先,分析了分组训练产生误差的原因,并对理想情况下无误差的分组进行了归纳总结。然后,提出一种平衡级联支持向量机BCSVM算法。该算法平衡了分组后子数据集中的样本比例,确保子数据集中的样本比例与原数据集的相同,且在分组训练时可以通过调整参数值,获取更多的支持向量,降低全局支持向量丢失的概率。同时,对BCSVM算法的有效性进行了论述,阐明了使用该算法得到的模型比使用随机分组CSVM得到的模型有更高的预测精度。最后,使用多个常见数据集进行实验验证,结果表明,采用BCSVM算法进行训练所得到的准确率误差由之前的1%降低到了0.1%左右。