计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (2): 277-285.
赵锦栎,勾智楠,高凯
ZHAO Jinyue,GOU Zhinan,GAO Kai
摘要: 意图聚类在自然语言处理中具有重要价值,面对有限的标记数据时,现有方法往往难以捕捉到离散文本表示中复杂的语义信息,并且未标记数据常常包含噪声,直接为其赋予伪标签可能会对模型的训练造成负面影响,因此如何有效利用未标记数据并减少噪声成为关键问题。为了解决这一问题,提出了一种名为ICBV的半监督聚类方法。该方法结合少量有标签数据和基于BERT编码的变分自编码器进行预训练表示学习,并随后在训练阶段采用质心引导策略。ICBV能够对输入文本进行编码并计算潜在变量,从而捕捉数据的潜在空间表示。ICBV相较传统聚类方法,还利用了深度学习的特性,以便更有效地捕捉数据的复杂结构和非线性关系。在BANKING77数据集上的不同已知类比率设置下的实验中,准确率相对最新基线方法有所提高,验证了VAE编码获得潜在变量表示的有效性和聚类方法的鲁棒性。该方法为自然语言处理领域中意图聚类中的标记数据不足和噪声问题提供了一种解决方案。