摘要:
文本表示是自然语言处理中的基础任务,针对传统短文本表示高维稀疏问题,提出1种基于语义特征空间上下文的短文本表示学习方法。考虑到初始特征空间维度过高,通过计算词项间互信息与共现关系,得到初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项的上下文信息,设计3种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵对短文本进行表示学习。实验结果表明,所提出的方法能很好地反映短文本的语义信息,能对短文本进行合理而有效的表示学习。
脱婷1,马慧芳1,2,魏家辉1,刘海姣1. 基于语义特征空间上下文的短文本表示学习[J]. 计算机工程与科学.
TUO Ting1,MA Huifang1,2,WEI Jiahui1,LIU Haijiao1.
Short text representation learning based
on semantic feature space context
[J]. Computer Engineering & Science.