摘要:
数据流挖掘分类技术是数据挖掘领域非常具有挑战性的工作。VFDT利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题;VFDTc改进了V-FDT ,使其能够处理连续属性。基于VFDT和VFDTc,我们设计并实现了一种基于排序二叉树的高效算法V-FDT-BSTree。该算法解决了VFDTc中存在的问题,提高了样本动态插入和最 佳划分节点选取的速度,从而提高了分类速度。实验结果表明,VFDT-BSTree在保持决策树大小和分类精度不变的基础上,执行时间相比VFDT平均减少32.25%,比VFDTc平均均减少24.96%。