摘要:
针对服务器中存储的大量重复和相似数据造成的空间浪费问题,改进的布隆过滤器(Bloom Filter)算法通过增加位数组并根据位数组的重复命中次数所计算的权重来动态优化重复数据的副本数,然后在 Hadoop 分布式集群下对改进的算法进行并行实现,以进一步提高作业处理效率。实验结果表明,与传统网页去重算法相比,改进的 Bloom Filter 算法的并行实现不仅提高了作业的处理效率,而且通过基于位数组下动态重复次数对副本数的优化,在一定程度上节省了服务器的存储空间。
黄伟建,杨海龙. Hadoop下改进布隆过滤器算法的网页去重[J]. 计算机工程与科学.
HUANG Wei-jian,YANG Hai-long.
An improved Bloom Filter algorithm under
the Hadoop for duplicated web page removal
[J]. Computer Engineering & Science.