一种基于混合重取样策略的非均衡数据集分类算法

J4 ›› 2012, Vol. 34 ›› Issue (10): 128-134.

一种基于混合重取样策略的非均衡数据集分类算法

谷琼，袁磊，宁彬，吴钊，华丽，李文新

(湖北文理学院数学与计算机科学学院,湖北襄阳 441053）

收稿日期:2012-04-25 修回日期:2012-07-10 出版日期:2012-10-25 发布日期:2012-10-25
基金资助:
国家自然科学基金资助项目(61075063,61172084)；湖北省自然科学基金资助项目(2010CDB05201)

A Novel Classification Algorithm for ImbalancedDatasets Based on Hybrid Resampling Strategy

GU Qiong，YUAN Lei， NING Bin，WU Zhao， HUA Li，LI Wenxin

(School of Mathematics and Computer Science,Hubei University of Arts and Science,Xiangyang 441053,China)

Received:2012-04-25 Revised:2012-07-10 Online:2012-10-25 Published:2012-10-25

摘要/Abstract

摘要：

非均衡数据是分类中的常见问题，当一类实例远远多于另一类实例，则代表类非均衡，真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视，非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点，是对传统分类算法的重大挑战。本文提出了一种新型重取样算法，采用改进的SMOTE算法对少数类数据进行过取样，产生新的少数类样本，使类之间数据量基本均衡，然后再根据SMO算法的特点，提出使用聚类的数据欠取样方法，删除冗余或噪音数据。通过对数据集的过取样和清理之后，一些有用的样本被保留下来，减少了数据集规模，增强支持向量机训练执行的效率。实验结果表明，该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。

关键词: 分类, 非均衡数据集, 预处理, 混合重取样, SMOTE, 聚类

Abstract:

Imbalanced data is a common problem in classification,this issue occurs when the number of examples of one class is much smaller than the ones of the other classes.Its presence in many realworld applications has attracted a growth of attention from researchers.Classifier learning with datasets that suffer from imbalanced class distributions is a challenging problem in data mining and pattern recognition community.In this paper, we present a novel preprocessing approach that combines unsupervised clustering and supervised learning to handle imbalanced data set and apply this learning approach for training SMO. This proposed algorithm lessen the imbalance ration through the construction of new samples using the improved synthetic minority oversampling technique and then clustering for both classes to delete redundant or noisy samples. Thus, the useful samples are remained,improving the computational efficiency.Experimental results show that the proposed approach can effectively improve the classification accuracy of the minority classes,while maintaining the overall classification performance.

Key words: classification;imbalanced dataset;preprocessing;hybrid resampling;SMOTE;clustering

谷琼，袁磊，宁彬，吴钊，华丽，李文新. 一种基于混合重取样策略的非均衡数据集分类算法[J]. J4, 2012, 34(10): 128-134.

GU Qiong，YUAN Lei， NING Bin，WU Zhao， HUA Li，LI Wenxin. A Novel Classification Algorithm for ImbalancedDatasets Based on Hybrid Resampling Strategy[J]. J4, 2012, 34(10): 128-134.

[1]	柴燕涛，董德尊，张鹤颖，朱成阳，廖湘科. 基于SDN架构的高性能网络拥塞避免策略[J]. J4, 20160101, 38(01): 1-10.
[2]	沈凡凡, 汤星译, 张军, 徐超, 陈勇, 何炎祥. 基于改进萤火虫算法和长短期记忆网络的恶意行为检测方法[J]. 计算机工程与科学, 2024, 46(12): 2158-2170.
[3]	冯兴杰, 曹若轩. 融合特征投影和负监督的文本分类[J]. 计算机工程与科学, 2024, 46(10): 1864-1874.
[4]	刘强, 李沐春, 伍晓洁, 王煜恒. S-JSMA：一种低扰动冗余的快速JSMA对抗样本生成方法[J]. 计算机工程与科学, 2024, 46(08): 1395-1402.
[5]	黄智慧, 肖祥立, 张玉书, 薛明富. 基于隐形后门水印的开源数据集版权保护[J]. 计算机工程与科学, 2024, 46(06): 1013-1021.
[6]	肖新正, 黄瑞章, 陈艳平, 秦永彬, 宋玉梅, 周裕林, . Corrective-Net：面向多标签文本分类的标签关联学习模块[J]. 计算机工程与科学, 2024, 46(06): 1092-1100.
[7]	佟缘, 姚念民. 基于对span的预判断和多轮分类的实体关系抽取[J]. 计算机工程与科学, 2024, 46(05): 916-928.
[8]	刘盼, 郭延明, 雷军, 王昊冉, 老松杨, 李国辉. 结合上下文的细粒度实体分类特征表示方法[J]. 计算机工程与科学, 2024, 46(05): 929-936.
[9]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(04): 684-692.
[10]	罗月童, 李超, 周波, 张延孔. 面向工业缺陷分类的交互式易混淆缺陷分离方法研究[J]. 计算机工程与科学, 2024, 46(03): 463-470.
[11]	吕伏, 韩晓天, 冯永安, 项梁. 基于自适应纹理特征融合的纹理图像分类方法[J]. 计算机工程与科学, 2024, 46(03): 488-498.
[12]	张远洋, 贡正仙, 孔芳. 增强依存结构表达的零样本跨语言事件论元角色分类[J]. 计算机工程与科学, 2024, 46(03): 508-517.
[13]	庞诺言, 关东海, 袁伟伟. 基于早期时间序列分类的可解释实时机动识别算法[J]. 计算机工程与科学, 2024, 46(02): 353-362.
[14]	马雪, 何星星, 兰咏琪, 李莹芳. 一阶逻辑中基于treelet图神经网络的前提选择[J]. 计算机工程与科学, 2024, 46(02): 374-380.
[15]	焦佳辉, 马思远, 宋玉, 宋伟. 基于卷积注意力机制的双模态音乐流派分类模型MGTN[J]. 计算机工程与科学, 2023, 45(12): 2226-2236.