• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2012, Vol. 34 ›› Issue (4): 162-166.

• 论文 • 上一篇    下一篇

基于非平衡数据分类的单文档自动文摘方法

倪维健,刘彤,曾庆田,赵华,汤建渝   

  1. (山东科技大学信息科学与工程学院,山东 青岛 266510)
  • 收稿日期:2011-11-05 修回日期:2012-02-10 出版日期:2012-04-26 发布日期:2012-04-25
  • 基金资助:

    国家自然科学基金资助项目(61170079);山东省统计科研重点课题资助项目(KT11017);山东科技大学春蕾计划资助项目(2010AZZ179);山东省优秀中青年科学家奖励基金资助项目(BS2009DX004);青岛市公共领域科技支撑计划资助项目(103332nsh);中国博士后基金资助项目(2011M501155);山东科技大学杰出青年基金资助项目(2010KYJQ101)

Imbalanced Classification Approaches to Automatic SingleDocument Summarization

NI Weijian,LIU Tong,ZENG Qingtian,ZHAO Hua,TANG Jianyu   

  1. (School of Information Science and Engineering,
    Shandong University of Science and Technology,Qingdao 266510,China)
  • Received:2011-11-05 Revised:2012-02-10 Online:2012-04-26 Published:2012-04-25

摘要:

自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效果带来负面影响。为此,本文针对自动文摘中句子类别分布严重不平衡这一现象,以支持向量机算法为基础,设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中,将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔;在第二种方法中,通过将数据集进行切分,设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明,本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。

关键词: 非平衡数据分类, 自动摘要, 支持向量机, 分类间隔, 分类器集成

Abstract:

Machine learning based automatic document summarization approaches have drawn increasing attentions in the natural language processing literature. However, neither of them takes the imbalanced class distribution in automatic document summarization into account, i.e., the number of the sentences in summary is much fewer than that of in the whole document. It is obvious that the highly imbalanced data distribution will degrade the effectiveness of the conventional machine learning algorithms. This paper addresses the problem of automatic document summarization from a perspective of imbalanced classification and proposes two learning strategies to deal with the highly imbalanced distributed data in automatic singledocument summarization effectively. The experimental results on the DUC 2001 data set show the significant performance improvements of our approaches in terms of F1 and ROUGH2.

Key words: imbalanced classification;automatic document summarization;SVM;margin;bagging