一种针对非平衡数据的贝叶斯分类算法

doi:10.3969/j.issn.1007130X.2010.

J4 ›› 2010, Vol. 32 ›› Issue (7): 95-98.doi: 10.3969/j.issn.1007130X.2010.

一种针对非平衡数据的贝叶斯分类算法

汪春亮1，2,伏玉琛2

（1.苏州大学附属第二医院，江苏苏州 215004;2.苏州大学计算机科学与技术学院，江苏苏州 215006）

收稿日期:2009-03-13 修回日期:2009-08-26 出版日期:2010-06-25 发布日期:2010-06-25
通讯作者: 汪春亮 E-mail:c.l.wang2008@163.com
作者简介:汪春亮(1979)，男，安徽铜陵人，硕士生，研究方向为网络信息技术、软件设计与应用等；伏玉琛，副教授，研究方向为管理信息系统、电子政务与电子商务、数据挖掘与商务智能、地理信息系统等。

A New Bayesian Classification Algorithmfor NonBalance Datasets

WANG Chunliang1,2,FU Yuchen2

(1.No.2 Hospital Affiliated to Suzhou University,Suzhou 215004;
(2.School of Computer Science and Technology,Suzhou University,Suzhou 215006,China)

Received:2009-03-13 Revised:2009-08-26 Online:2010-06-25 Published:2010-06-25
Contact: WANG Chunliang E-mail:c.l.wang2008@163.com

摘要/Abstract

摘要：

借鉴半监督分类的思想，本文提出一种基于改进EM算法的贝叶斯分类模型，对移动通信网络中存在的大量随机缺失的非平衡数据进行分类。首先，从实际数据中经过初步统计分析得到能在一定程度上反应变量状态的先验概率，并以此作为贝叶斯分类模型的初始值进行EM迭代训练，从而减少EM算法的迭代次数并改善EM算法对初始值的敏感性以及局部收敛的缺陷；然后，利用对历史移动通信数据进行训练得到的叶斯网络分类模型，对测试数据进行预测分类。实验结果表明，该方法大大提高了移动通信数据中负类样本的预测成功率，与传统的数理统计分析方法相比较，表现出了更好的性能。

关键词: 半监督学习, 贝叶斯网络, EM 算法, 非平衡数据

Abstract:

Based on the idea of semisupervised learning, a new Bayesian classifier model by using an improved EM (ExpectationMaximum) algorithm is proposed to classify and predict nonbalance data gathered from mobile communication networks. Firstly, a statistical analysis is performed to calculate the priori probabilities based on the actual data. By using these priori probabilities as the initial values of the Bayesian model, we can speed up the convergence process of the EM algorithm. Secondly, a classifier based on the Bayesian network is constructed to learn the category characteristics of the historic communication data by improving the EM (ExpectationMaximum) steps. Thirdly, by using this classifier, the label of the current data sample is predicted. The experimental results demonstrate that, the proposed method highly increases the prediction accuracy of the negative label, and gains better performance than the traditional statistical methods.

Key words: semisupervised learning;Bayes

汪春亮1，2,伏玉琛2. 一种针对非平衡数据的贝叶斯分类算法[J]. J4, 2010, 32(7): 95-98.

WANG Chunliang1,2,FU Yuchen2. A New Bayesian Classification Algorithmfor NonBalance Datasets[J]. J4, 2010, 32(7): 95-98.

[1]	王栋, 杨珂, 玄佳兴, 韩雨桐, 赵丽花, 王旭仁. 基于半监督生成对抗网络的恶意代码家族分类实现[J]. 计算机工程与科学, 2022, 44(05): 826-833.
[2]	郭文强, 寇馨, 李梦然, 侯勇严, 肖秦琨. 小数据集情况下基于变权重融合的BN参数学习算法[J]. 计算机工程与科学, 2022, 44(05): 916-923.
[3]	李方, 吴国栋, 涂立静, 刘玉良, 查志康, 李景霞. 图自编码器推荐研究综述[J]. 计算机工程与科学, 2022, 44(02): 335-344.
[4]	王保成, 刘利军, 黄青松, . 基于LDA和卷积神经网络的半监督图像标注方法[J]. 计算机工程与科学, 2022, 44(01): 110-117.
[5]	孙庞博, 符琦, 陈安华, 蒋云霞. 基于组合预测模型的小样本轴承故障分类诊断 [J]. 计算机工程与科学, 2021, 43(09): 1684-1691.
[6]	任胜兵，廖湘荡. 基于代价敏感支持向量机的软件缺陷预测研究[J]. 计算机工程与科学, 2018, 40(10): 1787-1795.
[7]	吴帅，赵方. 基于随机森林的老年人居住偏好预测研究[J]. 计算机工程与科学, 2018, 40(05): 924-930.
[8]	艾阳阳，罗莉，杨庆娜，张恒浩，夏婷婷. 一种基于贝叶斯网络的随机测试方法在Cache一致性验证中的设计与实现[J]. 计算机工程与科学, 2017, 39(08): 1397-1402.
[9]	周伟1，赵宝康1，刘波1，吴少康1，李琰1，刘华1,2. 基于动态贝叶斯网络的健壮报头压缩算法[J]. 计算机工程与科学, 2017, 39(01): 61-66.
[10]	王晓栋,严菲,谢勇,江慧琴. 基于稀疏图表示的特征选择方法研究[J]. J4, 2015, 37(12): 2372-2378.
[11]	丁思远，洪宇，朱珊珊，姚建民，朱巧明. 基于Tri-Training的事件关系分类方法研究[J]. J4, 2015, 37(12): 2345-2351.
[12]	彭波,徐天伟,李臻,高炜. 迭代拉普拉斯半监督学习本体算法[J]. J4, 2014, 36(11): 2164-2168.
[13]	袁兴梅,谢雪莲. 基于RSC模型和噪声去除的半监督训练方法[J]. J4, 2013, 35(9): 162-166.
[14]	贾松浩，杨彩，张海玉. 利用节点顺序置信指导增量学习贝叶斯网络的研究与应用[J]. J4, 2013, 35(6): 96-100.
[15]	朱志勇1，徐长梅1，刘志兵1，胡晨刚2. 基于贝叶斯网络的客户流失分析研究[J]. J4, 2013, 35(3): 155-158.

一种针对非平衡数据的贝叶斯分类算法

A New Bayesian Classification Algorithmfor NonBalance Datasets

PDF

可视化

摘要/Abstract

引用本文

使用本文

相关文章 15

编辑推荐

Metrics

本文评价