Please wait a minute...
  • 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

当期目录

    论文
    对于大规模系统日志的日志模式提炼算法的优化
    赵一宁,肖海力
    2017, 39(05): 821-828. doi:
    摘要 ( 186 )   PDF (677KB) ( 491 )     

    LARGE框架是部署在中国科学院超级计算环境中的日志分析系统,通过日志收集、集中分析、结果反馈等步骤对环境中的各种日志文件进行监控和分析。在对环境中系统日志的监控过程中,系统维护人员需要通过日志模式提炼算法将大量的过往系统日志记录缩减为少量的日志模式集合。然而随着日志规模的增长以及messages日志文件的特殊性,原有的日志模式提炼算法已经难以满足对大规模日志快速处理的需要。介绍了一种对于日志模式提炼算法的优化方法,通过引入MapReduce机制实现在存在多个日志输入文件的情况下对日志处理和模式提炼的流程进行加速。实验表明,当输入文件较多时,该优化方法能够显著提高词汇一致率算法的运行速度,大幅减少运行时间。此外,还对使用词汇转换函数时的算法运行时间和提炼效果进行了验证。

    面向ARM64架构多核微处理器的模板计算性能优化研究
    冯璐霞,李春江,黄亚斌
    2017, 39(05): 829-833. doi:
    摘要 ( 232 )   PDF (722KB) ( 371 )     

    模板计算是一类重要的计算核心,广泛存在于图像和视频处理以及大规模科学和工程计算领域。但是,针对ARM64高性能处理器的模板计算性能的优化研究还很少。为了实现典型模板计算核心在ARM64架构多核微处理器上的并行化和性能优化,基于AMCC XGENE2和飞腾FT1500A多核微处理器特点,提出了基于两维度绑定的优化方法,该方法通过线程与CPU绑定以及线程与数据块绑定,减少了线程调度的并行开销,增加了Cache的命中率。实验结果表明,该方法提升了模板计算在ARM64架构多核微处理器上的性能,且在两种ARM64架构多核微处理器平台上都表现出较好的可扩展性。

    众核处理器的共享一级指令缓存研究
    张昆,刘骁,郑方,谢向辉
    2017, 39(05): 834-840. doi:
    摘要 ( 159 )   PDF (1281KB) ( 360 )     

    众核处理器设计在芯片面积上受到了巨大挑战,如何将有限的芯片面积投入到运算能力中,是众核处理器体系结构研究的热点。聚焦众核处理器的指令缓存结构设计,研究通过在多核核心之间共享一级指令缓存,以获取指令系统及处理器流水线性能的提升。给出了共享指令缓存的结构设计,对该结构进行了节拍级精确的性能模拟,并通过RTL级代码的综合得到了面积开销和时序指标。测试结果表明,共享指令缓存可以降低11%~27%的缓存脱靶率,提升4%~7%的流水线性能。

    基于MapReduce的Bagging决策树优化算法
    张元鸣,陈苗,陆佳炜,徐俊,肖刚
    2017, 39(05): 841-848. doi:
    摘要 ( 151 )   PDF (860KB) ( 361 )     

    针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。

    海量文件系统中基于特征实现文件多维度浏览
    贺扬,何连跃,陈博,徐俊,徐照淼
    2017, 39(05): 849-854. doi:
    摘要 ( 143 )   PDF (714KB) ( 331 )     

    SMDFS可以高效地管理百亿级数量文件。然而针对照片、音乐等海量数据,往往需要从多个维度快速浏览文件,基于目录结构管理海量文件的传统文件组织方式很难满足这一要求。在SMDFS文件系统基础之上,为文件引入特征属性,并提出基于特征的海量小文件倒排索引技术和分布索引技术,
    使SMDFS可根据多个特征快速浏览文件。实验数据表明,支持特征的SMDFS能为海量小文件提供高效管理和多维度快速浏览能力,同时基于文件目录结构访问海量小文件的性能并没有明显下降。

    基于OpenCL 的JPEG压缩算法并行化设计与实现
    张敏华,张剑贤,裘雪红,周端
    2017, 39(05): 860. doi:
    摘要 ( 297 )   PDF (758KB) ( 384 )     
    随着图像数据的大量增加,传统单处理器或多处理器结构的计算设备已无法满足实时性数据处理要求。异构并行计算技术因其高效的计算效率和并行的实时性数据处理能力,正得到广泛关注和应用。利用GPU在图形图像处理方面并行性的优势,提出了基于OpenCL的JPEG压缩算法并行化设计方法。将JPEG算法功能分解为多个内核程序,内核之间通过事件信息传递进行顺序控制,并在GPU+CPU的异构平台上完成了并行算法的仿真验证。实验结果表明,与CPU串行处理方式相比,本文提出的并行化算法在保持相同图像质量情况下有效提高了算法的执行效率,大幅降低了算法的执行时间,并且随着图形尺寸的增加,算法效率获得明显的提升。
     
     
    网络安全态势评估指标体系优化模型研究
    吴果,陈雷,司志刚,白利芳
    2017, 39(05): 861-869. doi:
    摘要 ( 131 )   PDF (755KB) ( 535 )     
    针对指标选取的主观性带来的评估结果准确率低、实时性较差等问题,提出了基于因子分析法和主成分分析法的网络安全态势评估指标优化模型。该模型可以用一组具有较强独立性的综合变量来描述原有的指标体系,从而减少网络安全评估时的计算量。实验表明,模型在不影响准确率的情况下能够得出较为实时的评估结果。

     
    免密钥托管的基于身份的分层加密机制研究
    唐鑫,齐芳
    2017, 39(05): 870-876. doi:
    摘要 ( 143 )   PDF (564KB) ( 343 )     
    为解决基于身份加密的密钥托管问题,提出了一种针对密钥生成中心的密文不可区分性ACIKGC的安全性的改进方案。该方案首先描述了如何改进架构,以达到ACIKGC安全性。引入第三方信任机构ICA,通过匿名密钥生成协议联合生成用户私钥,在这一过程中,可以确保私钥生成器无法获知用户身份信息,从而无法伪造用户私钥。然后将改进的机制应用到现有的基于身份的分层加密方案中,并且分析证明,在保持性能的前提下达到了更好的安全性。
     
    基于攻防博弈的SCADA系统信息安全评估方法
    黄慧萍,肖世德,孟祥印
    2017, 39(05): 877-884. doi:
    摘要 ( 167 )   PDF (515KB) ( 363 )     
    信息安全评估是保障SCADA系统正常工作的基础性工作。现有各类评估方法都未考虑攻击者与防御者双方之间的相互影响及经济效益。为了解决这一问题,提出了一种基于攻击防御树和博弈论的评估方法。该方法以攻击防御树为基础,计算攻击者和防御者各自的期望收益函数,并建立系统的攻防博弈模型,求解该完全信息静态博弈模型的混合策略纳什均衡,得到攻防双方的策略选择概率分布结果。针对一个SCADA系统主从站的信息攻防实例进行计算分析,说明了该方法的具体应用。评估结果表明,该方法合理可行,能够帮助风险管理者评估现有系统信息安全防御措施的投资效益,有针对性地重点部署防御措施,实现收益最大化。
     
    一种改进的高速链路前向纠错编码
    冯璇,胡舒凯,王谛,宋新亮,李宏亮
    2017, 39(05): 885-891. doi:
    摘要 ( 135 )   PDF (813KB) ( 338 )     

    在高速链路的可靠传输中,物理层前向纠错的研究主要集中在提高编码的纠错性能,且编码冗余位全部用于纠错校验,难以满足用户在传输中加载定制信息的应用需求。针对这一问题,设计了一种编码利用率更高、灵活性更强的前向纠错编码方案,并通过Matlab和综合工具对性能和开销进行了评估,在不损失编码性能的前提下得到了一系列可以无损加载用户定制信息的前向纠错编码。

    LTL概率模型检验工具的实现与优化
    林哲超,董威
    2017, 39(05): 892-896. doi:
    摘要 ( 144 )   PDF (453KB) ( 291 )     

    概率模型检验建立在非概率模型检验技术的基础上,不仅能够对系统进行定性的验证,还能够定量判断系统满足相关性质的概率,具有广泛的适用性。LTL概率模型检验算法的复杂度较高,达到双重指数级别,现有的工具如PRISM与MRMC均不支持对LTL性质的验证。针对这个问题,通过对原有的LTL概率模型检验算法进行优化,实现了一个高效的LTL概率模型检验工具。通过对比实验验证了该工具的有效性。

    一种基于时序行为的流过程协同重构算法
    黄黎1,2,谭文安1,许小媛2
    2017, 39(05): 897-903. doi:
    摘要 ( 138 )   PDF (744KB) ( 354 )     

    过程流数据具有实时性、连续性和时序性等特征,使得传统过程挖掘算法难以发现隐含信息和演化过程。针对流过程模型的动态演化和重构要求,提出了一种基于时序行为分析的自适应混合启发式协同优化算法。首先定义演化流过程模型,基于日志活动间的隐含依赖关系改进过程逻辑的启发式挖掘规则,然后定义基于时序行为的老化因子,并引入高斯变异的多种群协作的自适应策略,改进粒子群优化算法的全局和局部精确寻优能力,实现优化和重构过程模型。该算法在四个典型测试函数上进行了对比实验,结果表明该算法在流过程挖掘中具有更好的收敛性和稳定性。

    基于概率的无监督缺陷预测方法
    陆正发,徐玲,张小洪,陈林,杨梦宁
    2017, 39(05): 904-911. doi:
    摘要 ( 132 )   PDF (1033KB) ( 330 )     

    软件缺陷预测能够提高软件开发和测试的效率,保障软件质量。无监督缺陷预测方法具有不需要标签数据的特点,从而能够快速应用于工程实践中。提出了基于概率的无监督缺陷预测方法—PCLA,将度量元值与阈值的差值映射为概率,使用概率评估类存在缺陷的可能性,然后再通过聚类和标记来完成缺陷预测,以解决现有无监督方法直接根据阈值判断时对阈值比较敏感而引起的信息丢失问题。将PCLA方法应用在NetGen和Relink两组数据集,共7个软件项目上,实验结果表明PCLA方法在查全率、查准率、Fmeasure上相对现有无监督方法分别平均提升4.1%、2.52%、3.14%。

    一种利用极限学习机的数据可视化方法
    陈文兵,宋玛君,王廷春
    2017, 39(05): 912-918. doi:
    摘要 ( 162 )   PDF (712KB) ( 360 )      评审附件
    提出一种利用极限学习机ELM的数据可视化方法,该方法利用多维尺度分析MDS、Pearson相关性、Spearman相关性代替常用的均方误差MSE实现高维数据投影到2-维平面的数据可视化。将所提方法与近期流行的随机邻域嵌入SNE及其改进的t-SNE方法对比,并通过局部连续元准则LCMC进行质量评测。结果表明:该方法的数据可视化结果及计算性能明显优于SNE及t-SNE方法;而在提出的三种学习规则中,基于MDS的学习规则效果最好。
     
    基于奇异谱分析的经验模态分解去噪方法
    肖小兵,刘宏立,马子骥
    2017, 39(05): 919-924. doi:
    摘要 ( 352 )   PDF (826KB) ( 410 )      评审附件

    提出了一种基于奇异谱分析(SSA)的经验模态分解(EMD)去噪方法。该方法先对带噪信号进行EMD分解,得到若干个本征模态函数(IMF)。再通过SSA对每个IMF分量进行去噪处理:把第一个IMF分量作为高频噪声,并根据它计算出剩余IMF中所含的噪声能量,从而得到剩下的每个IMF中信号所占的能量比值。然后选择合适的窗口长度,对每个IMF进行SSA变换,根据IMF中信号所占的能量比值选择合适的奇异值分解(SVD)分量重构,得到去噪后的IMF。再将所有重构得到的IMF分量以及余项相加,得到最终去噪后的信号。经过实验,对比研究了该方法与小波软阈值、EMD软阈值和EMD滤波方法的去噪效果,结果表明该方法整体优于其它方法,是一种有效的信号去噪方法。

    基于EHMM-SVM的人脸识别算法研究
    刘欢,苏士美
    2017, 39(05): 925-930. doi:
    摘要 ( 154 )   PDF (592KB) ( 344 )      评审附件

    EHMM依靠输出最大相似概率来判定人脸,但由于人脸图像的相似性,此方法可能会导致识别错误。对此,提出了一种基于EHMM-SVM的人脸识别方法。运用二维离散余弦变换(2D-DCT)进行人脸特征提取,得到观察向量序列。通过双重嵌套Viterbi算法求出每个人脸图像对应EHMM模型的输出概率,把输出概率输入SVM中进行分类训练以及识别测试,得到人脸识别的结果。运用ORL和YALE人脸数据库进行实验。实验结果表明了该方法的可行性及有效性。

    带空间约束的邻域中值加权FCM图像分割算法
    杨军1,柯运生1,王茂正2
    2017, 39(05): 931-935. doi:
    摘要 ( 153 )   PDF (866KB) ( 476 )      评审附件

    在聚类分析过程中,欧氏距离是最为常用的距离度量方法,而传统的基于欧氏距离的图像分割方法没有综合考虑空间信息和邻域特征等因素。提出了一种用邻域中值加权欧氏距离替代欧氏距离的度量方法,同时植入像素空间约束信息,这样可以利用更多的图像空间信息来改善图像分割质量。通过对多幅图像的分割实验结果表明,与已有的算法相比,本算法不仅能提升图像分割效果,具有更好的噪声抵抗性,同时能加速算法的收敛速度,从而提高了分割效率。

    基于自适应显著特征选择的动态加权平均行人识别模型
    杨超,蔡晓东,甘凯今,王丽娟
    2017, 39(05): 935-943. doi:
    摘要 ( 140 )   PDF (1292KB) ( 397 )     

    在跨场景行人识别过程中,为了解决多种特征以一个固定的权重融合导致行人识别率低、识别速度慢的问题,提出基于自适应特征选择的动态加权平均排名行人识别方法。首先,将GrabCut算法和基于流形排序显著性检测算法相融合,提高行人外观特征提取的准确性;然后,提出自适应显著特征选择方法,有效地提取行人特征描述;最后,通过动态加权平均排名模型将多特征融合。实验表明,所提出的方法提高了行人识别的准确性,同时对姿态的变化具有较好的鲁棒性。

    基于低秩投影中稀疏误差矩阵分析的视觉跟踪
    杨国亮,唐俊,王建,朱松伟,梁礼明
    2017, 39(05): 944-950. doi:
    摘要 ( 137 )   PDF (764KB) ( 317 )      评审附件
    单目标跟踪是计算机视觉的重要组成部分,其鲁棒性一直受到目标遮挡、光照变化、目标尺度变化等因素的制约。针对这个问题,提出了基于低秩投影中稀疏误差矩阵分析的视觉跟踪算法。为了克服模板漂移对跟踪的影响,采用目标模板和候选目标的相似性关系动态选择目标模板的更新方式。在粒子滤波的框架下,利用鲁棒主成分分析和低秩投影原理求得候选目标的稀疏误差矩阵,根据稀疏误差矩阵的边缘信息和平滑度信息实现对下一帧目标的观测似然估计。在多个视频序列上的实验表明,算法具有较好的鲁棒性。
     
    一种改进的多尺度Retinex色调映射算法
    芦碧波1,陈静1,王建龙2,郑艳梅1
    2017, 39(05): 951-956. doi:
    摘要 ( 242 )   PDF (841KB) ( 348 )      评审附件

    传统的低动态范围显示设备不能很好地表现高动态范围图像信息,针对这一问题,提出一种基于引导滤波的Retinex多尺度分解色调映射算法。该算法使用引导滤波对光照信息进行估计,将高动态范围图像的亮度分为光照层和反射层;然后对反射层分量进行多尺度分解,得到一系列细节层和一个基本层,将细节层和基本层进行合并和色彩还原;最后得到色调映射后的图像。实验结果表明,该算法可以较好地还原真实场景信息,映射后图像的细节和对比度较好,色彩鲜艳。

    基于多Agent的众包任务推荐系统建模与仿真
    郭伟,邱丹逸
    2017, 39(05): 958-963. doi:
    摘要 ( 202 )   PDF (739KB) ( 353 )      评审附件
    为了让众包平台用户更方便准确地搜寻到合适任务,促进其能力水平提升,解决众包任务推荐动态性等问题,提出了一种基于多Agent的众包任务推荐系统。首先,基于众包平台建立多Agent任务推荐模型,提出了模型设计思路与模型框架,并进一步阐述了各Agent功能、相互作用关系与相关算法;其次,提出众包用户能力水平提升相关算法;最后,利用NetLogo仿真软件进行验证。结果表明,众包任务推荐系统可对用户能力水平的提升起到促进作用,证明了在众包平台引入推荐系统的必要性。并且分析了多Agent技术可提升推荐系统的动态性、智能性与灵活性等整体性能,促进了众包平台数据的管理与维护。

     
    基于网格的快速搜寻密度峰值的聚类算法优化研究
    孙昊1,张明新2,戴娇2,尚赵伟3
    2017, 39(05): 964-970. doi:
    摘要 ( 139 )   PDF (843KB) ( 303 )      评审附件

    CFSFDP是基于密度的新型聚类算法,可聚类非球形数据集,具有聚类速度快、实现简单等优点。然而该算法在指定全局密度阈值dc时未考虑数据空间分布特性,导致聚类质量下降,且无法对多密度峰值的数据集准确聚类。针对以上缺点,提出基于网格分区的CFSFDP(简称GbCFSFDP)聚类算法。该算法利用网格分区方法将数据集进行分区,并对各分区进行局部聚类,避免使用全局dc,然后进行子类合并,实现对数据密度与类间距分布不均匀及多密度峰值的数据集准确聚类。两个典型数据集的仿真实验表明,GbCFSFDP算法比CFSFDP算法具有更加精确的聚类效果。

    一种基于WordNet的混合式语义相似度计算方法
    张思琪,邢薇薇,蔡圆媛
    2017, 39(05): 971-977. doi:
    摘要 ( 194 )   PDF (569KB) ( 338 )      评审附件

    语义相似度的计算是自然语言处理中的重要研究内容,在过去几十年的研究工作中,已有大量的语义相似度计算方法被提出并广泛应用于语义消歧、文本聚类等领域中。基于WordNet本体,改进了信息量IC计算模型,进而提出了两种混合式的语义相似度的计算方法。实验结果表明,由于同时考虑了概念节点在WordNet中的最短路径距离和IC语义距离,所提方法优于已有方法,其计算结果更加接近人类的主观判断。

    基于双语LDA的跨语言文本相似度计算方法研究
    程蔚1,2,线岩团1,2,周兰江1,2,余正涛1,2,王红斌1,2
    2017, 39(05): 978-983. doi:
    摘要 ( 149 )   PDF (589KB) ( 396 )      评审附件

    基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。

    基于水平集的TLD目标跟踪改进算法
    张丹1,陈兴文1,赵姝颖2
    2017, 39(05): 984-991. doi:
    摘要 ( 123 )   PDF (804KB) ( 295 )      评审附件

    TLD算法是一种新颖的长期目标跟踪算法,针对算法中检测器采用特征没有充分考虑跟踪过程中目标的表观、区域轮廓的变化及基于窗口扫描影响效率等问题,在TLD算法的基础上,加入演化机理,基于水平集对其进行改进。结合边缘和区域信息的多尺度水平集方法,引入目标轮廓信息,在有效克服灰度不均匀图像的同时,提高了目标跟踪的适应性及精度;根据轮廓检测结果,引入目标运动方向检测算子,对目标运动方向及其在当前帧中的位置进行估计,减少扫描窗口的同时提高目标辨识能力。通过实验对原始TLD算法及改进的算法进行了比较。实验结果表明,改进后的方法跟踪速度有提升,对目标跟踪的适应性更强,跟踪精度更高。

    复杂码头环境下的船舶检测与跟踪算法
    王培玉1,2,李峰1,2,周书仁1,2,廖卓凡1,2
    2017, 39(05): 992-998. doi:
    摘要 ( 177 )   PDF (1119KB) ( 320 )      评审附件
    运动模板算法在复杂环境下无法准确提取运动目标区域,并且依赖帧间间隔的选取,无法对减速运动目标取得良好检测效果。针对该缺点,提出了一种改进的运动模版算法。首先,对输入的视频序列采用Canny算子结合轮廓信息提取水岸边界线;然后,将运动历史图沿着水岸边界线进行水岸分离,消除岸上运动目标的干扰;接着,对水面区域进行形态学处理,消除背景中水面上非目标运动对象;最后,对形态学处理后的结果进行船舶轮廓检测,计算最大轮廓外接矩形的宽和高,结合船舶当前位置的尾部坐标重建船舶轮廓外接矩形,以此实现实时的、高准确度的船舶检测与跟踪。实验结果表明,在复杂水面环境下,该方法能够实现实时、准确的船舶目标检测与跟踪。
     
    基于稀疏表示的可变形部件模型目标检测
    袁奕珊,陈姝
    2017, 39(05): 999-1004. doi:
    摘要 ( 123 )   PDF (605KB) ( 311 )      评审附件

    基于可变形部件模型DPM的目标检测算法采用方向梯度直方图HOG进行特征表示,由于HOG无法处理模糊的边界而且忽略了平滑的特征区域,从而影响了DPM算法的性能。为了提高DPM的性能,提出了一种基于稀疏表示的可变形部件模型目标检测的方法。该方法利用稀疏编码构建一种新的特征描述子来取代原可变形部件所使用的方向梯度直方图,新的特征描述子能够描述物体更多的信息,对图像中的噪声不敏感。实验结果表明,该方法在PASCAL VOC 2012数据集上提高了原可变形部件模型算法的精度。

    新的小生境萤火虫模糊聚类
    李丹1,罗可1,孙振2
    2017, 39(05): 1005-1010. doi:
    摘要 ( 133 )   PDF (557KB) ( 304 )      评审附件

    模糊C均值算法因其简单、快速得到了广泛应用,但仍存在对初始值敏感和容易陷入局部最优的不足。提出了一种新的小生境萤火虫模糊聚类算法。该算法使用遍历性较好的立方混沌映射序列初始化萤火虫种群,并将随机惯性权重引入萤火虫算法,改变了基本萤火虫算法的位置更新公式,不仅减少了迭代次数,而且平衡了算法局部搜索和全局搜索的能力;并在迭代过程中合适时机实施小生境算法,进而增加了种群的多样性并加快了算法运算速度。仿真实验结果表明,该算法有效地抑制了早熟,并保证了种群的多样性和避免陷入局部最优,取得了较好的稳定性及良好的聚类结果。