计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (2): 309-318.
张航,吴俊
ZHANG Hang,WU Jun
摘要: 为解决抽取式摘要的词语冗余、可读性差以及生成式摘要的语义混乱、逻辑性差和暴露偏差等问题,提出了一种基于改进的PEGASUS模型与自适应纠错机制的双阶段文本摘要方法,采取混合式摘要生成技术。在抽取阶段,利用BERT模型获取文本向量,并结合Bi-GRU与图结构,通过改进的MMR算法有效减少候选摘要的冗余,提高摘要的精确性。在生成阶段,利用PEGASUS模型处理抽取的句子,结合层次聚类技术并引入自适应纠错机制解决了未登录词(OOV)问题,并采用对比学习框架显著降低了暴露偏差。实验结果表明,该方法所建立的模型在NLPCC数据集上ROUGE指标显著提升,与现有混合式方法的模型相比,各指标分别平均提高2.66个百分点、0.84个百分点和1.81个百分点,提高了摘要质量,并在解决未登录词和暴露偏差问题上表现出优越性能。