摘要:
传统的文本分类方法需要大量的已知类别样本来得到一个好的文本分类器,然而在现实的文本分类应用过程中,大量的已知类别样本通常很难获得,因此如何利用少量的已知类别样本和大量的未知类别样本来获得比较好的分类效果成为一个热门的研究课题。本文为此提出了一种扩大已知类别样本集的新方法,该方法先从已知类别样本集中提取出每个类别的代表特征,然后根据代表特征从未知类别样本集中寻找相似样本加入已知类别样本集。实验证明,该方法能有效地提高分类效果。
中图分类号:
秦飞,杨燕. 寻找相似样本的小样本半监督学习[J]. J4, 2010, 32(9): 127-129.
QIN Fei,YANG Yan. Small Sample and SemiSupervized Learningfor Finding Similar Samples[J]. J4, 2010, 32(9): 127-129.