基于最近邻子空间搜索的两类文本分类方法

J4 ›› 2015, Vol. 37 ›› Issue (01): 168-172.

基于最近邻子空间搜索的两类文本分类方法

李玉鑑，王影，冷强奎

（北京工业大学计算机学院，北京 100124）

收稿日期:2013-04-26 修回日期:2013-07-03 出版日期:2015-01-25 发布日期:2015-01-25
基金资助:
国家自然科学基金资助项目(61175004)；北京市自然科学基金资助项目(4112009)；北京市教委科技发展项目(KZ201210005007)；高等学校博士学科专项科研基金资助项目(20121103110029)

Two-class text categorization using nearest subspace search

LI Yujian，WANG Ying，LENG Qiangkui

（College of Computer Science,Beijing University of Technology,Beijing 100124,China）

Received:2013-04-26 Revised:2013-07-03 Online:2015-01-25 Published:2015-01-25

摘要/Abstract

摘要：

在文本分类中，最近邻搜索算法具有思想简单、准确率高等优点，但通常在分类过程中的计算量较大。为克服这一不足，提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间，并通过映射将子空间变换为高维空间中的点，然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters21578数据集上的实验表明，该方法能够有效提高文本分类的性能，具有较高的准确率、召回率和F1值。

关键词: 文本分类, 最近邻子空间搜索, 最近邻搜索

Abstract:

The nearest neighbor search algorithm is a simple method with high accuracy in text categorization, but it usually requires large amounts of calculation in the classifying process. To overcome this disadvantage, a twoclass text categorization method is proposed based on the nearest subspace search. It extracts a feature subspace from samples in the same class, and maps it to a point in a higher dimensional space, in which the classifying process is carried out by nearest neighbor search. Experiments on Reuters-21578 data sets show that the proposed method can effectively improve the performance of nearest neighbor search in text categorization, achieving a higher precision, recall rate, and F1 values.

Key words: text categorization;nearest subspace search;nearest neighbor search

李玉鑑，王影，冷强奎. 基于最近邻子空间搜索的两类文本分类方法[J]. J4, 2015, 37(01): 168-172.

LI Yujian，WANG Ying，LENG Qiangkui. Two-class text categorization using nearest subspace search [J]. J4, 2015, 37(01): 168-172.

编辑推荐

Metrics

阅读次数

全文

206

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	206

来源	本网站	其他网站

次数	154	52
比例	75%	25%

摘要

最新录用	在线预览	正式出版

0	0	90

	来源	本网站

	次数	90
	比例	100%

[1]	冯兴杰, 曹若轩. 融合特征投影和负监督的文本分类[J]. 计算机工程与科学, 2024, 46(10): 1864-1874.
[2]	华悦琳, 周晓磊, 范强, 王芳潇, 严浩, . 基于分区层次图的海量高维数据学习索引构建方法[J]. 计算机工程与科学, 2024, 46(07): 1193-1201.
[3]	肖新正, 黄瑞章, 陈艳平, 秦永彬, 宋玉梅, 周裕林, . Corrective-Net：面向多标签文本分类的标签关联学习模块[J]. 计算机工程与科学, 2024, 46(06): 1092-1100.
[4]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(04): 684-692.
[5]	杨春霞, 马文文, 徐奔, 韩煜, . 融合标签信息的分层图注意力网络文本分类模型[J]. 计算机工程与科学, 2023, 45(11): 2018-2026.
[6]	许浪, 李代伟, 张海清, 唐聃, 何磊, 于曦. 基于神经网络的医疗文本分类研究[J]. 计算机工程与科学, 2023, 45(06): 1116-1122.
[7]	梅侠峰, 吴晓鸰, 黄泽民, 凌捷. 融合RoBERTa的多尺度语义协同专利文本分类模型[J]. 计算机工程与科学, 2023, 45(05): 903-910.
[8]	文武, 万玉辉, 张许红, 文志云, . 基于改进CHI和PCA的文本特征选择[J]. 计算机工程与科学, 2021, 43(09): 1645-1652.
[9]	张丽, 马静. 融合词语统计特征和语义信息的文本分类方法研究[J]. 计算机工程与科学, 2021, 43(07): 1308-1315.
[10]	李晓红, 王闪闪, 马堉银, 马慧芳. 融合相似度图和随机游走模型的多标签短文本分类算法[J]. 计算机工程与科学, 2021, 43(06): 1081-1087.
[11]	李校林, 王成, . 一种基于质心的多标签文本分类模型研究[J]. 计算机工程与科学, 2020, 42(06): 1120-1126.
[12]	葛晓伟, 李凯霞, 程铭. 基于CNN-SVM的护理不良事件文本分类研究[J]. 计算机工程与科学, 2020, 42(01): 161-166.
[13]	黄贤英,熊李媛,刘英涛,李沁东. 基于类别特征改进的KNN短文本分类算法[J]. 计算机工程与科学, 2018, 40(01): 148-154.
[14]	刘述昌,张忠林. 基于中心向量的多级分类KNN算法研究[J]. 计算机工程与科学, 2017, 39(09): 1758-1764.
[15]	马长林，杨正良，谢罗迪. 文本分类中CTM模型的优化和可视化应用研究[J]. 计算机工程与科学, 2017, 39(03): 599-604.