J4 ›› 2011, Vol. 33 ›› Issue (4): 115-120.
王振宇1,郭力 2
WANG Zhenyu1,GUO Li2
摘要:
搜索引擎用户行为分析是网络信息检索技术的研究热点。通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来。本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Hadoop的海量日志数据处理模型,通过基于Hadoop的分布式文件系统HDFS与MapReduce并行计算模型提高系统扩展性和易编程性,并应用该模型分析了Sogou搜索引擎一个月内约2 200万条查询日志,分析结果对于掌握用户搜索行为,评测及改进搜索引擎检索、排序算法等均有较好的指导意义。