基于数据分类的领域自适应新算法

J4 ›› 2014, Vol. 36 ›› Issue (02): 275-285.

基于数据分类的领域自适应新算法

顾鑫1,2,王士同1

(1.江南大学数字媒体学院,江苏无锡214122;2.江苏北方湖光光电有限责任公司,江苏无锡 214035)

收稿日期:2012-09-20 修回日期:2012-11-30 出版日期:2014-02-25 发布日期:2014-02-25
基金资助:
国家自然科学基金资助项目(61170122,60975027);江苏省研究生创新工程项目(CXZZ110483)

A novel domain adaptation approach based on data classification

GU Xin1,2,WANG Shitong1

(1.School of Digital Media,Jiangnan University,Wuxi 214122;
2.Jangsu North Huguang OptoElectronics Co.Ltd., Wuxi 214035,China)

Received:2012-09-20 Revised:2012-11-30 Online:2014-02-25 Published:2014-02-25

摘要/Abstract

摘要：

一般的机器学习都假设训练数据与测试数据分布相同，而领域自适应算法则是在不同数据分布条件下进行知识传递和学习，在数据挖掘、数据校正、数据预测等领域有着广泛的应用。支持向量机SVM的主要思想是针对二分类问题，在高维空间寻找一个最优分类超平面，以保证最小的分类错误率。CCMEB理论由Tsang I提出的，是一种改进了核向量机CVM的最小包含球算法,在大样本数据集处理上有着较快的速度。而CCMEB理论同样适用于二分类的SVM数据集。将SVM理论、CCMEB理论与概率分布理论相结合，提出了一种全新的基于数据分类的领域自适应算法CCMEBSVMDA，该算法通过计算各自分类数据组的包含球球心，能够有效地对不同领域数据进行整体校正和相似度识别，具有较好的便捷性和自适应性。在UCI数据、文本分类等数据上对该算法进行了验证，取得了较好的效果。

关键词: 支持向量机, 领域自适应, 最小包含球, 中心约束型最小包含球

Abstract:

General machine learning assumes that the distribution of training data and test data are same, but the domain adaptation algorithms aims at handling different but similar distributions among training sets, which have a wide range of applications such as transfer learning, data mining, data correction, data projections. Support vector machine (SVM) attempts to find an optimal separating hyperplane for binaryclassification problems in highdimensional space, in order to ensure the minimum classification error rate. CCMEB proposed by I Tsang, as an improvement of the CVM, is particularly suitable for training on large datasets. In this article SVM and CCMEB are combined with probability distribution theory to formulate a novel domain adaptation approach (CCMEBSVMDA). By calculating the center of each dataset, we can correct the dataset or identify the similarity of data between different domains.This fast algorithm has a good adaptability. As a validation we test it on the fields of “UCI data” and “text classification data” and the obtained experimental results indicate the effectiveness of the proposed algorithm.

Key words: SVM;domain adaptation;minimum enclosing ball;CCMEB

顾鑫1,2,王士同1. 基于数据分类的领域自适应新算法[J]. J4, 2014, 36(02): 275-285.

GU Xin1,2,WANG Shitong1. A novel domain adaptation approach based on data classification [J]. J4, 2014, 36(02): 275-285.

编辑推荐

Metrics

阅读次数

全文

214

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	214

来源	本网站	其他网站

次数	202	12
比例	94%	6%

摘要

160

最新录用	在线预览	正式出版

0	0	160

	来源	本网站

	次数	160
	比例	100%

[1]	吕小姣, 张玉梅, 杨红红, 吴晓军, . 基于距离排序的DUPSO-DSVM民歌快速分类算法研究[J]. 计算机工程与科学, 2023, 45(10): 1874-1833.
[2]	刘屹成, 刘晓燕, 严馨. 并行平衡级联支持向量机[J]. 计算机工程与科学, 2023, 45(07): 1170-1177.
[3]	唐宇, 代琪, 杨梦园, 陈丽芳, . 改进麻雀搜索算法优化SVM的异常点检测[J]. 计算机工程与科学, 2023, 45(02): 346-354.
[4]	仲臣, 余学祥, 邰晓曼, 韩雨辰, 肖星星, 刘清华, . 萤火虫算法优化支持向量机室内定位研究[J]. 计算机工程与科学, 2022, 44(11): 1968-1975.
[5]	马汉达, 朱敏. 改进SVM不平衡数据分类的IGWOSMOTE方法[J]. 计算机工程与科学, 2022, 44(06): 1133-1140.
[6]	韦修喜1，黄华娟1，周永权1,2. 基于AP聚类的约简孪生支持向量机快速分类算法[J]. 计算机工程与科学, 2019, 41(10): 1899-1904.
[7]	王云艳1,2，罗冷坤1，王重阳1. 基于流形学习的光学遥感图像分类[J]. 计算机工程与科学, 2019, 41(07): 1212-1219.
[8]	冯璋，裴东,王维. 基于改进灰狼算法优化支持向量机的人脸识别[J]. 计算机工程与科学, 2019, 41(06): 1057-1063.
[9]	崔建双，车梦然. 基于多分类支持向量机的优化算法智能推荐系统与实证分析[J]. 计算机工程与科学, 2019, 41(01): 153-160.
[10]	田勋，汪西莉. 基于聚类标签均值的半监督支持向量机[J]. 计算机工程与科学, 2018, 40(12): 2265-2272.
[11]	颜学龙，龚流青，汪斌斌. 基于DCQGA-SMKL-SVM的模拟电路故障诊断方法[J]. 计算机工程与科学, 2018, 40(11): 1944-1950.
[12]	张和杰,马维华. 基于贴近度等级的链路质量评估方法[J]. 计算机工程与科学, 2018, 40(11): 1991-1999.
[13]	王志华,罗齐,刘绍廷. 基于混沌灰狼优化算法的SVM分类器研究[J]. 计算机工程与科学, 2018, 40(11): 2040-2046.
[14]	邱云飞，李智义. 改进人工鱼群算法在SVM参数优化中的应用[J]. 计算机工程与科学, 2018, 40(11): 2074-2079.
[15]	任胜兵，廖湘荡. 基于代价敏感支持向量机的软件缺陷预测研究[J]. 计算机工程与科学, 2018, 40(10): 1787-1795.