计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (12): 2253-2260.
唐晋韬,张成贤,鲍琛龙,李文静
#br#
摘要: 专业领域中术语间的组成逻辑更加复杂,出现了以非连续命名实体为代表的复杂实体等现象。针对非连续命名实体识别任务,提出一种借助大语言模型的理解与生成能力进行识别的方法。该方法将非连续实体识别建模为句子改写任务,设计规则将非连续命名实体识别数据集转换为句子改写数据集,对大语言模型进行输出微调。在命名实体识别阶段,基于改写后的句子,借助提示学习设计规则指令,通过人物角色对话隐式提示大语言模型数据领域等信息,进一步提升了实体识别的效果。实验表明,在3个数据集上,该方法比基于小模型的现有最好方法在药物不良事件语料库CADEC、共享医疗标注2013版 ShARe13和共享医疗标注2014版ShARe14上,F1值分别提升了3.23%,0.28%和1.04%,验证了大语言模型生成能力有助于专业领域命名实体识别的复杂任务。