基于非平衡数据分类的单文档自动文摘方法

J4 ›› 2012, Vol. 34 ›› Issue (4): 162-166.

基于非平衡数据分类的单文档自动文摘方法

倪维健，刘彤，曾庆田，赵华，汤建渝

（山东科技大学信息科学与工程学院，山东青岛 266510）

收稿日期:2011-11-05 修回日期:2012-02-10 出版日期:2012-04-26 发布日期:2012-04-25
基金资助:
国家自然科学基金资助项目（61170079）；山东省统计科研重点课题资助项目（KT11017）；山东科技大学春蕾计划资助项目（2010AZZ179）；山东省优秀中青年科学家奖励基金资助项目（BS2009DX004）；青岛市公共领域科技支撑计划资助项目（103332nsh）；中国博士后基金资助项目（2011M501155）；山东科技大学杰出青年基金资助项目（2010KYJQ101）

Imbalanced Classification Approaches to Automatic SingleDocument Summarization

NI Weijian，LIU Tong，ZENG Qingtian，ZHAO Hua，TANG Jianyu

（School of Information Science and Engineering,
Shandong University of Science and Technology,Qingdao 266510,China）

Received:2011-11-05 Revised:2012-02-10 Online:2012-04-26 Published:2012-04-25

摘要/Abstract

摘要：

自动文摘是自然语言处理领域的一个重要研究话题，基于机器学习的自动文摘方法则是该项研究中的一个热点。然而，自动文摘问题中的数据分布有一个重要现象，即文摘句子与非文摘句子的数量相差非常悬殊，该现象将给传统机器学习算法的应用效果带来负面影响。为此，本文针对自动文摘中句子类别分布严重不平衡这一现象，以支持向量机算法为基础，设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中，将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔；在第二种方法中，通过将数据集进行切分，设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明，本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。

关键词: 非平衡数据分类, 自动摘要, 支持向量机, 分类间隔, 分类器集成

Abstract:

Machine learning based automatic document summarization approaches have drawn increasing attentions in the natural language processing literature. However, neither of them takes the imbalanced class distribution in automatic document summarization into account, i.e., the number of the sentences in summary is much fewer than that of in the whole document. It is obvious that the highly imbalanced data distribution will degrade the effectiveness of the conventional machine learning algorithms. This paper addresses the problem of automatic document summarization from a perspective of imbalanced classification and proposes two learning strategies to deal with the highly imbalanced distributed data in automatic singledocument summarization effectively. The experimental results on the DUC 2001 data set show the significant performance improvements of our approaches in terms of F1 and ROUGH2.

Key words: imbalanced classification;automatic document summarization;SVM;margin;bagging

倪维健，刘彤，曾庆田，赵华，汤建渝. 基于非平衡数据分类的单文档自动文摘方法[J]. J4, 2012, 34(4): 162-166.

NI Weijian，LIU Tong，ZENG Qingtian，ZHAO Hua，TANG Jianyu. Imbalanced Classification Approaches to Automatic SingleDocument Summarization[J]. J4, 2012, 34(4): 162-166.

编辑推荐

Metrics

阅读次数

全文

151

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	151

来源	本网站	其他网站

次数	113	38
比例	75%	25%

摘要

最新录用	在线预览	正式出版

0	0	84

	来源	本网站

	次数	84
	比例	100%

[1]	阎红灿, 李铂初, 谷建涛, . 一种基于共现关键词的TextRank文摘自动生成算法[J]. 计算机工程与科学, 2023, 45(11): 2060-2069.
[2]	吕小姣, 张玉梅, 杨红红, 吴晓军, . 基于距离排序的DUPSO-DSVM民歌快速分类算法研究[J]. 计算机工程与科学, 2023, 45(10): 1874-1833.
[3]	刘屹成, 刘晓燕, 严馨. 并行平衡级联支持向量机[J]. 计算机工程与科学, 2023, 45(07): 1170-1177.
[4]	唐宇, 代琪, 杨梦园, 陈丽芳, . 改进麻雀搜索算法优化SVM的异常点检测[J]. 计算机工程与科学, 2023, 45(02): 346-354.
[5]	仲臣, 余学祥, 邰晓曼, 韩雨辰, 肖星星, 刘清华, . 萤火虫算法优化支持向量机室内定位研究[J]. 计算机工程与科学, 2022, 44(11): 1968-1975.
[6]	马汉达, 朱敏. 改进SVM不平衡数据分类的IGWOSMOTE方法[J]. 计算机工程与科学, 2022, 44(06): 1133-1140.
[7]	韦修喜1，黄华娟1，周永权1,2. 基于AP聚类的约简孪生支持向量机快速分类算法[J]. 计算机工程与科学, 2019, 41(10): 1899-1904.
[8]	王云艳1,2，罗冷坤1，王重阳1. 基于流形学习的光学遥感图像分类[J]. 计算机工程与科学, 2019, 41(07): 1212-1219.
[9]	冯璋，裴东,王维. 基于改进灰狼算法优化支持向量机的人脸识别[J]. 计算机工程与科学, 2019, 41(06): 1057-1063.
[10]	申强强，熊泽宇，熊岳山. 一种新的基于段向量的文本自动摘要方法[J]. 计算机工程与科学, 2019, 41(06): 1064-1070.
[11]	崔建双，车梦然. 基于多分类支持向量机的优化算法智能推荐系统与实证分析[J]. 计算机工程与科学, 2019, 41(01): 153-160.
[12]	田勋，汪西莉. 基于聚类标签均值的半监督支持向量机[J]. 计算机工程与科学, 2018, 40(12): 2265-2272.
[13]	颜学龙，龚流青，汪斌斌. 基于DCQGA-SMKL-SVM的模拟电路故障诊断方法[J]. 计算机工程与科学, 2018, 40(11): 1944-1950.
[14]	张和杰,马维华. 基于贴近度等级的链路质量评估方法[J]. 计算机工程与科学, 2018, 40(11): 1991-1999.
[15]	王志华,罗齐,刘绍廷. 基于混沌灰狼优化算法的SVM分类器研究[J]. 计算机工程与科学, 2018, 40(11): 2040-2046.