J4 ›› 2011, Vol. 33 ›› Issue (2): 153-158.doi: 10.3969/j.issn.1007130X.2011.
邱德红,方少红,孙 蕾
QIU Dehong,FANG Shaohong,SUN Lei
摘要:
序列识别研究对于诸多应用研究领域有重要的意义。在序列识别中,由于多种因素的影响,同一类别标记的序列往往不具有严格的相似性。变化序列相似性描述的尺度对序列的相似性进行描述有利于获得更准确的序列相似性描述结果,为此提出了基于多阶畸变序列子模式的序列识别方法。通过定义序列多阶畸变子模式特征空间及其核变换函数,设计线性开销算法有效实现了序列畸变子模式高维特征向量的计算,进而利用半定规划对多阶畸变序列子模式的核变换矩阵进行优化。基于多阶畸变子模式相似性描述优化结果,支持向量机生成的识别方法比较好地适应了序列之间的不同程度的相似性畸变,而且具有柔性边界特征。本方法在蛋白质基准数据SCOP 1.37 PDB90上进行了实验,普遍提高了该数据集上33个不同家族蛋白质序列的识别结果。