张 航,吴 俊
ZHANG Hang,WU Jun
摘要: 为解决抽取式摘要的词语冗余、可读性差以及生成式摘要的语义混乱、逻辑性差和暴露偏差问题,提出了一种基于改进的PEGASUS模型与自适应纠错机制的双阶段文本摘要方法,采取混合式摘要生成技术。在抽取阶段,利用BERT模型获取文本向量,并结合Bi-GRU神经网络与图结构,通过改进的MMR算法有效减少候选摘要的冗余,提高摘要的精确性。在生成阶段,利用PEGASUS模型处理抽取的句子,结合层次聚类技术并引入自适应纠错机制解决了未登录词(OOV)问题,并采用对比学习框架显著降低了暴露偏差。实验结果表明,该方法在NLPCC数据集上ROUGE指标显著提升,与现有混合式方法相比各指标分别平均提高2.66%、0.84%和1.81%,提高了摘要质量,并在解决未登录词和暴露偏差问题上表现出优越性能。