J4 ›› 2013, Vol. 35 ›› Issue (7): 149-155.
吐尔地·托合提,艾海麦提江·阿布来提,米也塞·艾尼玩,艾斯卡尔·艾木都拉
TURDI Tohti,AHMATJAN Ablat,MUYASSAR Aniwar,ASKAR Hamdulla
摘要:
介绍了K-means和GAAC聚类算法思想和两种特征提取方法对维吾尔文文本表示及聚类效率的影响。在较大规模文本语料库基础上,分别用K-means和GAAC的方法进行维吾尔文文本聚类实验及性能对比分析,针对经典K-means算法对初始聚类中心的过分依赖性及不稳定性缺点以及GAAC的高计算复杂性,提出了一种结合GACC和Kmeans的维吾尔文聚类算法。本算法分两步完成聚类操作,首先是GAAC模块从少量文本集中获取最优的初始类中心,然后是K-means模块对大量文本集进行快速聚类。实验结果表明,新算法在聚类准确率和时间复杂度上都有了显著的提高。