计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (09): 1546-1557.
曹建军1,常宸1,2,翁年凤1,陶嘉庆1,3,江春1
CAO Jian-jun1,CHANG Chen1,2,WENG Nian-feng1,TAO Jia-qing1,3,JIANG Chun1
摘要: 由于互联网的开放性和多源性,不同互联网平台提供的数据参差不齐,多个数据源对同一实体的描述可能存在冲突,真值发现是消解语义冲突,提高数据质量的重要技术手段之一。传统真值发现算法通常假设数据源可靠度与观测值可信度间的关系可用简单函数表示,设计迭代规则或概率模型进行真值发现,而人工定义的条件通常难以反映数据底层的真实分布,导致真值发现结果不理想。针对此问题,提出基于神经网络编码的真值发现方法TDNNE。首先利用“数据源-数据源”“数据源-观测值”关系及真值发现的假设构造双损失深度神经网络;然后利用该网络将数据源与观测值嵌入到高维空间,分别表示数据源可靠度与观测值可信度,使可靠数据源与可信观测值彼此接近(同时,不可靠数据源与不可信观测值彼此接近);最后基于嵌入空间进行真值发现。与传统方法相比,TDNNE方法不需要人工定义迭代规则或数据分布,而是利用神经网络自动学习数据源观测值间复杂的关系依赖。在真实数据集上的实验结果表明,该方法准确率较基于迭代的Accu等方法准确率提高约2%~25%,较基于概率图模型的3-Estimates等方法提高约2%~4%,较基于优化的CRH方法提高约2%~5%,较基于神经网络的FFMN方法提高约1%~2%。