基于深度置信网络的维吾尔文垃圾短信分类技术研究

计算机工程与科学

基于深度置信网络的维吾尔文垃圾短信分类技术研究

阿丽亚·艾尔肯，哈力旦·阿布都热依木，何燕，吴冰冰

（新疆大学电气工程学院，新疆乌鲁木齐 830047）

收稿日期:2015-07-07 修回日期:2015-11-15 出版日期:2016-10-25 发布日期:2016-10-25
基金资助:
国家自然科学基金（61163026）

A Uyghur spam classification method

based on deep belief networks

Aliya·Aierken, Halidan·Abudureyimu, HE Yan, WU Bing-bing

（College of Electrical Engineering, Xinjiang University, Urumqi 830047, China）

Received:2015-07-07 Revised:2015-11-15 Online:2016-10-25 Published:2016-10-25

摘要/Abstract

摘要：

针对传统分类算法对维吾尔文文本分类准确率不高的问题，提出了一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习模拟人脑的多层次结构，对数据从低层到高层逐渐地进行特征提取，深层挖掘数据集的分布规律，从而提高分类准确性。通过逐层无监督的方法完成深度置信网络的初始化，并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验论证。实验结果表明，相比KNN、SVM和决策树算法，深度置信网络具有更好的分类效果，准确率更高。

关键词: 深度置信网络, 维吾尔文, 垃圾短信, 文本分类

Abstract:

Traditional Uygur text classification algorithms have disadvantages such as low accuracy and a long operation time. We therefore propose a Uyghur text messages classification method using the deep learning model. Deep learning simulates the multi-layered structure of the brain which gradually extracts data features from low level to high level, and deeply exploits the distribution law of data sets to improve classification accuracy. We use the layered unsupervised method to initialize the deep belief network, and combining with the softmax regression classifier, we realize the classification of Uyghur message data sets. Experiments on Uyghur messages datasets show that compared with the KNN, SVM and the decision tree algorithm, the proposed method has better classification effect.

Key words: deep belief networks (DBNs), Uyghur, spam, text classification

阿丽亚·艾尔肯，哈力旦·阿布都热依木，何燕，吴冰冰. 基于深度置信网络的维吾尔文垃圾短信分类技术研究[J]. 计算机工程与科学.

Aliya·Aierken, Halidan·Abudureyimu, HE Yan, WU Bing-bing.

A Uyghur spam classification method

based on deep belief networks

[J]. Computer Engineering & Science.

[1]	冯兴杰, 曹若轩. 融合特征投影和负监督的文本分类[J]. 计算机工程与科学, 2024, 46(10): 1864-1874.
[2]	肖新正, 黄瑞章, 陈艳平, 秦永彬, 宋玉梅, 周裕林, . Corrective-Net：面向多标签文本分类的标签关联学习模块[J]. 计算机工程与科学, 2024, 46(06): 1092-1100.
[3]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(04): 684-692.
[4]	杨春霞, 马文文, 徐奔, 韩煜, . 融合标签信息的分层图注意力网络文本分类模型[J]. 计算机工程与科学, 2023, 45(11): 2018-2026.
[5]	许浪, 李代伟, 张海清, 唐聃, 何磊, 于曦. 基于神经网络的医疗文本分类研究[J]. 计算机工程与科学, 2023, 45(06): 1116-1122.
[6]	梅侠峰, 吴晓鸰, 黄泽民, 凌捷. 融合RoBERTa的多尺度语义协同专利文本分类模型[J]. 计算机工程与科学, 2023, 45(05): 903-910.
[7]	文武, 万玉辉, 张许红, 文志云, . 基于改进CHI和PCA的文本特征选择[J]. 计算机工程与科学, 2021, 43(09): 1645-1652.
[8]	张丽, 马静. 融合词语统计特征和语义信息的文本分类方法研究[J]. 计算机工程与科学, 2021, 43(07): 1308-1315.
[9]	李晓红, 王闪闪, 马堉银, 马慧芳. 融合相似度图和随机游走模型的多标签短文本分类算法[J]. 计算机工程与科学, 2021, 43(06): 1081-1087.
[10]	张原, 姜焕成. 基于深度学习的大口径火炮健康管理系统研究[J]. 计算机工程与科学, 2020, 42(11): 2050-2058.
[11]	李校林, 王成, . 一种基于质心的多标签文本分类模型研究[J]. 计算机工程与科学, 2020, 42(06): 1120-1126.
[12]	葛晓伟, 李凯霞, 程铭. 基于CNN-SVM的护理不良事件文本分类研究[J]. 计算机工程与科学, 2020, 42(01): 161-166.
[13]	黄贤英,熊李媛,刘英涛,李沁东. 基于类别特征改进的KNN短文本分类算法[J]. 计算机工程与科学, 2018, 40(01): 148-154.
[14]	刘述昌,张忠林. 基于中心向量的多级分类KNN算法研究[J]. 计算机工程与科学, 2017, 39(09): 1758-1764.
[15]	马长林，杨正良，谢罗迪. 文本分类中CTM模型的优化和可视化应用研究[J]. 计算机工程与科学, 2017, 39(03): 599-604.