计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (09): 1670-1678.
王若宾1,耿芳东1,张永梅1,宋威1,王伟锋1,徐琳2
WANG Ruo-bin1,GENG Fang-dong1,ZHANG Yong-mei1,SONG Wei1,WANG Wei-feng1,XU Lin2
摘要: 基于密度聚类的DBSCAN算法能够依据数据特征自动执行分类任务,多应用于含噪声的复杂数据集的聚类分析,但也存在难以确定参数以及人工参与度高的缺陷,限制了自动高准确率挖掘的应用。基于此,提出了一种基于k-dist图斜率的自适应DBSCAN算法KSSA-DBSCAN,可以依据k-dist图斜率自动选择合适的k-dist图拐点作为最佳邻域,并在聚类迭代过程中依据聚类数目的变化自动确定最佳密度阈值,克服了难以确定参数和人工参与度过高的缺陷。基于6个数据集将KSSA-DBSCAN和DBSCAN、KANN-DBSCAN进行了对比,实验结果显示,该算法的准确率在4个数据集上均优于其它算法,并且与DBSCAN相比准确率最大提高了25%。将其应用于某混合式MOOC视频观看行为数据的模式挖掘,结果显示该算法能够对视频观看模式进行有效的自动挖掘,进一步验证了该算法的有效性。