• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2010, Vol. 32 ›› Issue (8): 90-93.doi: 10.3969/j.issn.1007130X.2010.

• 论文 • 上一篇    下一篇

文本多分类中的特征选择研究

王〓博,贾〓焰,杨树强,韩伟红    

  1. (国防科学技术大学计算机学院,湖南 长沙 410073)
  • 收稿日期:2009-06-02 修回日期:2009-10-10 出版日期:2010-07-25 发布日期:2010-07-28
  • 作者简介:王博(1981),女,山西运城人,博士生,研究方向为数据库、数据挖掘和网络安全;贾焰,教授,博士生导师,研究方向为中间件、数据库、数据挖掘和网络安全;杨树强,教授,博士生导师,研究方向为数据库、信息处理和网络安全;韩伟红,副教授,研究方向为中间件、数据库、数据挖掘和网络安全。
  • 基金资助:

    国家863计划资助项目(2006AA01Z451,2007AA01Z474,2007AA010502);国家自然科学基金资助项目(60873204);NCET060928

Feature Selection for MultiClass Text Categorization

WANG Bo,JIA Yan,YANG Shuqiang,HAN Weihong   

  1. (School of Computer Science,National University of Defense and Technology,Changsha 410073,China)
  • Received:2009-06-02 Revised:2009-10-10 Online:2010-07-25 Published:2010-07-28

摘要:

特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。

Abstract:

As an important preprocessing step in data mining and machine learning, feature selection has been gradually developed. The highdimensional characteristics of text data always declines the performance of categorization. Hence, feature selection can be employed as a dimensionreduction measure. With the fast evolution of classification methods and refinement of categories, multiclass text categorization gives rise to more challenges for feature selection. In this paper, we present a survey of the main problems and the stateofart feature selection methods, following the development track. Finally, we conclude the whole paper and give some future directions of research.

Key words: feature selection;text categorization;data mining;hierarchical structure

中图分类号: