程蔚1,2,线岩团1,2,周兰江1,2,余正涛1,2,王红斌1,2
CHENG Wei1,2,XIAN Yan-tuan1,2,ZHOU Lan-jiang1,2,YU Zheng-tao1,2,WANG Hong-bin1,2
摘要:
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。