• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2016, Vol. 38 ›› Issue (05): 988-996.

• 论文 • 上一篇    下一篇

基于SAX方法的时间序列分类问题的多阶段改进研究

宋伟1,张帆2,叶阳东1,韩鹏3,范明1   

  1. (1.郑州大学信息工程学院,河南 郑州 450001;
    2.华北水利水电大学信息工程学院,河南 郑州 450045;3.河南省国家税务局,河南 郑州 450000)
  • 收稿日期:2015-11-26 修回日期:2016-01-30 出版日期:2016-05-25 发布日期:2016-05-25
  • 基金资助:

    国家自然科学基金(61170223);河南省基础与前沿技术研究计划(142300410229);河南省教育厅科学技术研究重点项目(13A520453)

A multiphased improvement for time series
classification based on symbolic aggregation
approximation representation  

SONG Wei1,ZHANG Fan2,YE Yangdong1,HAN Peng3,FAN Ming1   

  1. (1.School of Information Engineering,Zhengzhou University,Zhengzhou 450001;
    2.School of Information Engineering,North China University of Water Resources and Electric Power,Zhengzhou 450045;
    3.State Administration of Taxation,Henan Provincial Office,Zhengzhou 450000,China)
  • Received:2015-11-26 Revised:2016-01-30 Online:2016-05-25 Published:2016-05-25

摘要:

分类问题是数据挖掘中的基本问题之一,时间序列的特征表示及相似性度量是时间序列数据挖掘中分类、聚类及模式发现等任务的基础。SAX方法是一种典型的时间序列符号化表示方法,在采用该方法的基础上对时间序列进行分类,不仅可以有效地降维、降噪,而且具有简单、直观等特点,但是该方法有可能造成信息损失并影响到分类结果的准确性。为了弥补信息损失对分类结果的影响,采用了集成学习中大多数投票方法来弥补BOP表示后的信息损失,从而提高整个分类器的效率。针对一些样本在BOP表示中都损失了相似的重要信息,以至于大多数投票无法进一步提高分类效率的问题,进一步提出了结合集成学习中AdaBoost算法,通过对训练样本权重的调整,从而达到以提高分类器性能来弥补信息损失的效果。实验结果表明,将BOP方法与集成学习相结合的方法框架,不仅能很好地处理SAX符号化表示中的信息损失问题,而且与已有方法相比,在分类准确度方面也有显著的提高。

关键词: 时间序列, SAX, 分类, 集成学习, 多阶段

Abstract:

Classification is one of the basic tasks in data mining, and feature representation and similarity measurement act as the important basis of time series data mining. The symbolic aggregate approximation (SAX) is a typical symbolic representation method which is straightforward and very simple, and which can efficiently converts time series data to a symbolic representation with dimensionality/ noise reduction. But the potential of information loss can affect the accuracy of the classification results. Focusing on the SAX discretization method coupled with the bag of patterns (BOP) representation in classification task, we propose a multiphased approach framework using the AdaBoost algorithm and voting in ensemble learning   to remedy the information loss of the SAX representation. Experimental results show that the proposed method can improve classification accuracy greatly.

Key words: time series;SAX;classification;ensemble learning;multiphased