J4 ›› 2013, Vol. 35 ›› Issue (10): 110-115.
魏贤全,郑洪源,丁秋林
WEI Xianquan,ZHENG Hongyuan,DING Qiulin
摘要:
针对现有分布式环境下Topk查询算法的不足,提出了一种适用于海量分布式数据的Topk查询算法(ECHT)。该算法充分考虑了数据分布情况,提出了一种改进的限定误差直方图描述数据分布算法,避免了节点数据分布不均时Topk查询算法的低效性;另一方面,提高了Topk算法的阈值计算精度,从而进一步降低了网络带宽消耗。此外,提出了一种早裁剪思想,在大量数据传输之前提前进行数据裁剪,避免了大量无用数据的传输。实验表明,ECHT算法在网络带宽消耗和网络响应时间方面均优于同类算法。