• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2011, Vol. 33 ›› Issue (6): 130-132.

• 论文 • 上一篇    下一篇

基于主题词匹配频数的搜索引擎结果聚类算法

胡诗未,李晓峰,徐伟   

  1. (四川大学计算机学院,四川 成都 610064)
  • 收稿日期:2010-08-30 修回日期:2010-12-29 出版日期:2011-06-25 发布日期:2011-06-25
  • 作者简介:胡诗未(1987),男,河南睢县人,硕士生,研究方向为计算机应用和模式识别。
  • 基金资助:

    国家自然科学基金资助项目(60736046)

An Algorithm for the Search Results Clustering Based on Topic Words Matching Frequency

HU Shiwei,LI Xiaofeng,X Wei   

  1. (School of Computer Science,Sichuan University,Chengdu 610064,China)
  • Received:2010-08-30 Revised:2010-12-29 Online:2011-06-25 Published:2011-06-25

摘要:

搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。

关键词: 搜索结果聚类, 词间语义相关度, 文档相似度, 主题词

Abstract:

Search engine results clustering has a high application value to the search service quality and the intelligence level, which clusters by seeking the document relations from the title and the document segment information. An algorithm based on topic words matching frequency is proposed. It automatically generate categories according to the graph of the semantic relevance, with other results clustering by topic words matching frequency. Experiments show that, compared with the STC and LINGO algorithms, the algorithm performs better.

Key words: search results clustering;semantic relevance between words;document similarity;topic word