张波,徐蔚鸿,陈沅涛,朱玲
ZHANG Bo,XU Weihong,CHEN Yuantao,ZHU Ling
摘要:
为了解决kmeans算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统kmeans算法对随机选取初始聚类中心的敏感性,减少了kmeans算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。