计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (04): 635-646.
王谢中1,陈旭1,景永俊1,王叔洋2
Xie-zhong1,CHEN Xu1,JING Yong-jun1,WANG Shu-yang2
摘要: 互联网网站数量快速增长使现有方法难以准确分类特定网站主题,如基于URL的方法无法处理未反映在URL中的主题信息,基于网页内容的方法受到数据稀疏性和语义关系捕捉的限制。为此,提出一种基于异构图神经网络的半监督网站主题分类方法HGNN-SWT。该方法不仅利用网站文本特征来弥补仅使用URL特征的不足,还利用异构图对网站文本和词语的稀疏关系进行建模,通过处理图中的节点和边关系来提高分类性能。同时引入基于随机游走的邻居节点采样方法,考虑节点的局部特征和全局图结构,并提出特征融合策略,捕捉网站文本数据的上下文关系和特征交互。通过在自制的Chinaz Website数据集上的实验,证明了HGNN-SWT方法在网站主题分类任务中相较于现有方法具有更高的准确率。