摘要:
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。
赵谦1,荆琪1,李爱萍1,2,段利国1. 一种基于语义与句法结构的短文本相似度计算方法[J]. 计算机工程与科学.
ZHAO Qian1,JING Qi1,LI Aiping1,2,DUAN Liguo1.
A short text similarity calculation method based
on semantics and syntax structure
[J]. Computer Engineering & Science.