汤莉,何丽
TANG Li,HE Li
摘要:
为了更好地评估Web文档数据质量,提出一种基于PAC-Bayes理论的Web文档质量评估指标体系和评估方法。PAC-Bayes理论融合了PAC理论和贝叶斯定理,在充分利用样本先验信息的基础上,推导出了最紧的泛化风险边界,用于衡量学习算法的泛化性能。首先阐述了文档数据质量评估的研究现状,介绍了PAC-Bayes理论框架及其在支持向量机上的应用;其次提出一种基于PAC-Bayes理论的Web文档数据质量评估方法(DQAPB),将SVM算法及其PAC-Bayes边界应用于Web文档的质量评价中,并构建了基于PAC-Bayes理论的Web文档质量评估指标体系;最后采用Wikipedia文档进行实验,实验结果表明该方法具有简便快速、稳定性和鲁棒性较强的优点。