J4 ›› 2010, Vol. 32 ›› Issue (5): 126-129.doi: 10.3969/j.issn.1007130X.2010.
范会联1,李献礼2,曾广朴1
FAN Huilian1,LI Xianli2,ZENG Guangpu1
摘要: 本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理。实践证明,该爬虫具有较好的性能。
中图分类号: