计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (08): 1498-1507.
喻金平1,朱伟锋1,廖列法2
YU Jin-ping1,ZHU Wei-feng1,LIAO Lie-fa2
摘要: 扶持政策能够帮助企业获得政府在资金补助、税务减免等方面的支持,帮助企业更好地发展。针对扶持政策文本存在实体边界难以划分且传统词向量无法解决一词多义的问题,提出基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别模型。该模型使用预训练语言模型RoBERTa-wwm训练得到动态词向量,能够表征词的多义性;利用BiLSTM网络进一步抽取扶持政策文本的上下文信息和语义特征;最后通过条件随机场得到最佳的预测序列。提出的模型在自建的5 512条语料组成的扶持政策数据集上的F1值达到91.7%,结果表明,该模型能够有效识别扶持政策文本的命名实体,从而提高企业筛选政策的效率。