计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (10): 1815-1824.
陈昌奉1,赵宏州1,周恺卿2
CHEN Chang-feng1,ZHAO Hong-zhou1,ZHOU Kai-qing2
摘要: 随着数据开源的不断深化,代码抄袭成本降低,严重影响软件行业的健康发展。因此,针对现有抄袭检测方法无法深度挖掘源代码语义和结构信息导致语义抄袭检测效果不佳的问题,提出一种基于图神经网络的代码抄袭检测方法。该方法利用图神经网络对源代码包括语义和结构信息在内的特征进行有效表征,并利用图注意力网络进行特征强化,进一步利用神经张量网络得到不同源代码之间的相似向量。最后,利用全连接网络计算不同源代码之间的相似度。同时,加入dropout机制平衡神经元权重,优化模型设计,防止过拟合。为了验证所提方法的有效性,在OJ系统数据集上进行实验验证,并将此方法与当前流行的检测方法进行了对比。实验结果表明,所提方法具有更好的检测效果。