• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2007, Vol. 29 ›› Issue (3): 52-53.

• 论文 • 上一篇    下一篇

一种基于词共现的文本相似度计算

曹恬 周丽 张国煊   

  • 出版日期:2007-03-01 发布日期:2010-05-30

  • Online:2007-03-01 Published:2010-05-30

摘要:

在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。

关键词: 文本相似度 中文信息处理 特征串 词共现

Abstract:

In text retrieval,insufficient expression of the client requirements usually leads to large amounts of inappropriate information,which brings inconven ience to user retrieval.The text similarity computing based on word co-occurrence presented in this paper enables users to delete or maintain text colle  ctions similar to a certain text in order to improve retrieval efficiency.

Key words: text similarity;Chinese information processing;string of feature code;word co-occurrence