基于稀疏重构权的错误标注数据检测方法

计算机工程与科学

基于稀疏重构权的错误标注数据检测方法

吴敬生，王靖，杜吉祥

（华侨大学计算机科学与技术学院，福建厦门 361021）

收稿日期:2016-01-21 修回日期:2016-05-17 出版日期:2017-11-25 发布日期:2017-11-25
基金资助:
国家自然科学基金（61370006）；福建省自然科学基金（2014J01237）；福建省教育厅科技项目（JA12006）；福建省高等学校新世纪优秀人才支持计划（2012FJ-NCET-ZR01）；华侨大学中青年教师科技创新计划（ZQN-PY116）；华侨大学研究生科研创新能力培育计划(1400214005)

A mislabeled data detection method

based on sparse reconstruction weights

#br#

WU Jing-sheng,WANG Jing,DU Ji-xiang

（School of Computer Science and Technology,Huaqiao University,Xiamen 361021,China）

Received:2016-01-21 Revised:2016-05-17 Online:2017-11-25 Published:2017-11-25

摘要/Abstract

摘要：

数据分类的准确性依赖于数据标注的质量和数量，当训练数据被错误标注时，数据分类的准确性会受到很大的影响。针对这种情形，提出一种基于稀疏重构权的错误标注数据检测方法。首先，对含有错误标注数据集采用k近邻的方法求取其近邻点；然后，通过求解带L1-范数的最小二乘模型计算每个标注数据的局部稀疏重构权，并利用稀疏重构权计算每个标注数据的置信度；最后，通过寻找置信度曲线中最大曲率的位置，自适应地检测出错误标注数据。通过实际数据的实验验证了本文所提算法的有效性。

关键词: 稀疏重构权, 错误标注, 置信度, 检测

Abstract:

The accuracy of data classification depends on the quality and quantity of labeled data. When training data is mislabeled, data classification accuracy is greatly affected. In view of this situation, we propose a detection method based on the sparse reconstruction weights for erroneous labeling data. Firstly, we apply the k-nearest neighbor method to search their neighbor points for the training data that contains wrong labels. Each local sparse reconstruction weight can be calculated by solving the LS model with L1-norm. Secondly, we use parse reconstruction weights to calculate the label confidence level of every labeled data. Finally, by finding the position of the maximum curvature on the confidence curve, this method can adaptively detect the mislabeled data. Experiments on real data demonstrate that the proposed algorithm is effective.

Key words: sparse reconstruction weight, mislabeled, confidence level, detection

吴敬生，王靖，杜吉祥. 基于稀疏重构权的错误标注数据检测方法[J]. 计算机工程与科学.

WU Jing-sheng,WANG Jing,DU Ji-xiang.

A mislabeled data detection method

based on sparse reconstruction weights

#br#

[J]. Computer Engineering & Science.

[1]	陈楚依, 罗雄飞, 鄢宝彤, 冯宇轩, 马可, 乔颖. 面向多层递归域名系统的自适应缓存管理方法[J]. 计算机工程与科学, 2025, 47(05): 823-831.
[2]	苏宇杭, 马俊, 樊津瑜, 陈博行, 周家城, 尹博然. 基于GATv2-TCN联合优化的WSN数据流异常检测算法[J]. 计算机工程与科学, 2025, 47(05): 843-850.
[3]	陈旭, 陈子雄, 景永俊, 王叔洋, 宋吉飞. 基于双曲图卷积神经网络的切片级漏洞检测方法[J]. 计算机工程与科学, 2025, 47(05): 851-863.
[4]	梁佳杰, 徐慧英, 朱信忠, 王舒梦, 刘子洋, 李琛. 基于改进的YOLOv8n海洋动物目标检测算法：DPSC-YOLO[J]. 计算机工程与科学, 2025, 47(04): 695-705.
[5]	尹春勇, 张小虎. 基于Transformer和Text-CNN的日志异常检测[J]. 计算机工程与科学, 2025, 47(03): 448-458.
[6]	景永俊, 王浩, 邵堃, 王晓峰. 一种基于图热核扩散卷积的网络入侵检测方法[J]. 计算机工程与科学, 2025, 47(03): 459-471.
[7]	刘拥民, 许成, 黄浩, 张钱垒, 赵俊杰, . 基于SAE和WGAN的入侵检测方法研究[J]. 计算机工程与科学, 2025, 47(02): 256-264.
[8]	黄颖, 唐敏, . 基于深度神经网络的隐私保护基因检测[J]. 计算机工程与科学, 2025, 47(02): 265-275.
[9]	梁泰然, 蒋诗新, 李泉洲, 欧阳斌, 吕盛坪. PCB表面缺陷数据集与基于YOLOv5s-P6SE的检测[J]. 计算机工程与科学, 2025, 47(02): 276-287.
[10]	王海群, 王炳楠, 葛超. 改进ESP-YOLO的PCB缺陷检测算法[J]. 计算机工程与科学, 2025, 47(02): 317-326.
[11]	武培成, 赵旭俊, 靳黎忠. 基于网格密度积叠的流数据异常检测[J]. 计算机工程与科学, 2025, 47(01): 75-85.
[12]	陈兆波, 张琳, 马晓轩. 改进注意力混合自动编码器视频异常检测研究[J]. 计算机工程与科学, 2025, 47(01): 130-139.
[13]	沈凡凡, 汤星译, 张军, 徐超, 陈勇, 何炎祥. 基于改进萤火虫算法和长短期记忆网络的恶意行为检测方法[J]. 计算机工程与科学, 2024, 46(12): 2158-2170.
[14]	刘沛, 刘昌华, 林俏伶. 基于优化特征堆叠与集成学习的车联网入侵检测模型[J]. 计算机工程与科学, 2024, 46(12): 2186-2195.
[15]	徐淑萍, 卫浩波, 孙洋洋, 万亚娟. 基于模板更新和重检测的长时目标跟踪研究[J]. 计算机工程与科学, 2024, 46(12): 2196-2204.