计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (05): 916-928.
佟缘,姚念民
TONG Yuan,YAO Nian-min
摘要: 针对自然语言处理领域中的实体识别和关系抽取任务,提出一种对词元序列(Token Sequence,又称span)进行预测的模型Smrc。模型整体上利用BERT预训练模型作为编码器,另外包含实体预判断(Pej)、实体多轮分类(Emr)和关系多轮分类(Rmr)3个模块。Smrc模型通过Pej模块的初步判断及Emr模块的多轮实体分类来进行实体识别,再利用Rmr模块的多轮关系分类来判断实体对间的关系,进而完成关系抽取任务。在CoNLL04、SciERC和ADE 3个实验数据集上,Smrc模型的实体识别F1值分别达到89.67%,70.62%和89.56%,关系抽取F1值分别达到73.11%,51.03%和79.89%,相较之前在3个数据集上的最佳模型Spert,Smrc模型凭借实体预判断和实体及关系多轮分类,在2个子任务上其F1值分别提高了0.73%,0.29%,0.61%及1.64%,0.19%,1.05%,表明了该模型的有效性及其优势。