计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (08): 1513-1520.
• 人工智能与数据挖掘 • 上一篇
徐捷1,邵玉斌1,杜庆治1,龙华1,2,马迪南2
XU Jie1,SHAO Yu-bin1,DU Qing-zhi1,LONG Hua1,2,MA Di-nan2
摘要: 文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征提取模型,提取出长文本的主要语义信息;对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示;然后,通过双向长短期记忆网络建模长文本的前后语义联系,将其映射到语义空间内;再通过线性层增加模型表示能力;最后,通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明,该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91,性能优于基线模型。