• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2008, Vol. 30 ›› Issue (3): 4-6.

• 论文 • 上一篇    下一篇

主题搜索引擎中网络爬虫的搜索策略研究

李勇 韩亮   

  • 出版日期:2008-03-01 发布日期:2010-05-19

  • Online:2008-03-01 Published:2010-05-19

摘要:

本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛 模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法——EPR算法。

关键词: 搜索引擎 网络蜘蛛 搜索策略 主题提取

Abstract:

Based on our in-depth research on the search strategy in topic-driven engines and topic dependency judgement algorithms, this article presents a desig n model of the topic-oriented web spider and analyzes its structure in detail. As the key component of the search strategy for the topic-oriented web sp  ider,the topic dependency judgement algorithms ensure a focused web crawling process of the spider. In the process of the dependency judgement between URLs and topics, a novel URL pruning algorithm called EPR is presented based on an analysis of the anchor text and the related properties.

Key words: search engine;Web spider, search strategy, topic distillation