计算机工程与科学

2018年第12期目录

2018, 40(12): 0-0. doi:

摘要 ( 16 )

PDF (336KB) ( 72 ) 　　

2018年中国高性能计算机发展现状分析

袁国兴1，张云泉2，袁良2

2018, 40(12): 2097-2102. doi:

摘要 ( 136 )

PDF (857KB) ( 298 ) 　　

本文根据2018年10月发布的中国高性能计算机性能TOP100排行榜的数据，对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析，同时对未来发展进行了展望。

一种基于GPU的高性能稀疏卷积神经网络优化

方程，邢座程，陈顼颢，张洋

2018, 40(12): 2103-2111. doi:

摘要 ( 324 )

PDF (1126KB) ( 332 ) 　　

评审附件

卷积神经网络CNN目前作为神经网络的一个重要分支，相比于其他神经网络方法更适合应用于图像特征的学习和表达。随着CNN的不断发展，CNN将面临更多的挑战。CNN参数规模变得越来越大，这使得CNN对计算的需求量变得非常大。因此，目前产生了许多种方式对CNN的规模进行压缩。然而压缩后的CNN模型往往产生了许多稀疏的数据结构，这种稀疏结构会影响CNN在GPU上的性能。为了解决该问题，采用直接稀疏卷积算法，来加速GPU处理稀疏数据。根据其算法特点将卷积运算转换为稀疏向量与稠密向量内积运算，并将其在GPU平台上实现。本文的优化方案充分利用数据稀疏性和网络结构来分配线程进行任务调度，利用数据局部性来管理内存替换，使得在稀疏卷积神经网络SCNN中的GPU仍能够高效地处理卷积层运算。相比cuBLAS的实现，在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.07×~1.23×、1.17×~3.51×、1.32×~5.00×的加速比。相比cuSPARSE的实现，在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.31×～1.42×、1.09×～2.00×、1.07×～3.22×的加速比。

Docker动态调度算法的设计与实现

刘殊旸，张曼怡，曹强

2018, 40(12): 2112-2119. doi:

摘要 ( 300 )

PDF (968KB) ( 302 ) 　　

评审附件

Docker作为容器的实施引擎，能高效部署、执行和管理容器。然而，现有Docker容器资源管理机制基于静态配置，无法根据应用类型特征和资源需求在运行时进行高效的动态资源分配。因此，实验性地分析Docker运行不同负载时的资源使用和性能情况，设计并实现了一种基于运行时的Docker动态调度算法，优先满足实时型应用容器服务要求，同时保证批处理型应用容器的性能。另外，算法根据节点运行现状推荐创建最合适的应用容器，最大化节点的资源利用率。实验表明，动态调度机制不会引入明显的性能开销；当容器间出现资源竞争时，可以将实时型应用容器满足服务要求的时间段延长87.5%，且最多对同时运行的批处理应用容器的性能造成2.9%的开销。算法推荐机制将节点上能够运行的容器实例数增大2.3倍时，对批处理型应用容器只造成最多9.3%的性能损耗。

基于FPGA的故障修复演化技术研究

王洁，康俊杰，周宽久

2018, 40(12): 2120-2125. doi:

摘要 ( 121 )

PDF (574KB) ( 244 ) 　　

评审附件

演化硬件的自修复特性能够有效解决电路系统的可修复性故障，但演化硬件存在电路演化速度慢、演化成功率不高的缺陷，如何在修复约束期限内完成电路演化成为关键难点。提出一种基于演化硬件的实时系统容错架构，通过建立故障树实时监测电路故障，利用故障补偿机制维持系统正常运行，并采用演化硬件技术修复电路故障，实现故障的在线实时修复。采用FPGA构建容错系统测试环境，通过随机故障注入对比验证不同演化算法的自修复能力,实验结果表明，在实时性约束下故障电路的修复率达到95%，有效提升了系统的稳定性和可靠性。

基于FPGA的HEVC后处理CNN硬件加速器研究

夏珺1，钱磊2，严伟3，柴志雷1

2018, 40(12): 2126-2132. doi:

摘要 ( 201 )

PDF (642KB) ( 358 ) 　　

评审附件

针对高效视频编解码标准中后处理CNN算法在通用平台运行时产生的高延时缺点，提出一种基于现场可编程逻辑门阵列（FPGA）的后处理卷积神经网络硬件并行架构。提出的并行架构通过改进输入与输出缓冲的数据并发过程，调整卷积模块整体并行度，加快模块硬件流水。实验结果表明，基于本文所提出的并行架构设计的CNN硬件加速器在Xilinx ZCU102上处理分辨率为176×144视频流，计算性能相当于每秒360.5 GFLOPS，计算速度可满足81.01 FPS，相比时钟频率4 GHz的Intel i7-4790K，计算速度加快了76.67倍,相比NVIDIA GeForce GTX 750Ti加速了32.50倍。在计算能效比方面，本文后处理CNN加速器功耗为12.095 J，能效比是Intel i7-4790K的512.90倍，是NVIDIA GeForce GTX 750Ti的125.78倍。

面向无线内容分发网络的树形拓扑生成算法

黄洪涛1，武继刚1，郑露露1，缪裕青2

2018, 40(12): 2133-2140. doi:

摘要 ( 190 )

PDF (680KB) ( 330 ) 　　

在无线内容分发网络中，为减轻骨干网络的传输压力，可将网络拓扑结构构建为以基站和WiFi接入点为根的若干棵最小生成树，并对生成树的深度和每个节点的度数进行约束。这种深度和度数约束的最小生成树问题是一个NP完全问题。针对该问题，首先提出能够生成优质近似解的启发式算法，该算法在不违反深度以及度数约束的情况下构建生成树，算法思想为在服务性节点相连的边中选择与当前生成树相连且权值最小的边加入生成树。然后在生成初始近似解的基础上采用定制的禁忌搜索算法和模拟退火算法对该近似解实施进一步优化。实验结果表明，在给定的约束条件下，禁忌搜索算法求得的解优于现有的遗传算法，在深度约束为4以及度数约束为10的条件下，解的改进幅度可达18.5%，所提算法的运行速度比遗传算法提高了10倍。

CC-NUMA架构下4路龙芯3B服务器设计与实现

张鹏

2018, 40(12): 2141-2145. doi:

摘要 ( 190 )

PDF (545KB) ( 328 ) 　　

评审附件

针对特定领域中服务器的高性能计算、高带宽通信以及自主可控需求，在分析龙芯3B3000处理器架构特点的基础上，设计了基于CCNUMA并行处理架构的4路龙芯3B3000高性能服务器核心模块，通过使用TOE芯片提高了网络响应效率，同时大幅降低了10G以太网接口对处理器资源的占用消耗，有效提高了服务器的综合性能。通过测试验证，该服务器能够实现高效的并行计算能力和10G以太网通信能力，且国产元器件种类占比和数量占比均可达95%以上。

一种用于时空体元编解码存储的低计算量优化方法

顾清华，马龙，卢才武

2018, 40(12): 2146-2155. doi:

摘要 ( 125 )

PDF (1040KB) ( 324 ) 　　

评审附件

针对时空网格体对象的编解码占用存储空间大的问题，提出了一种用于时空体元编解码存储的低计算量优化方法。首先以十六叉树索引结构为基础，构建了时空网格体元编解码的数学模型，实现体元对象标识和时空位置索引，并借助3DGIS的自动编解码方法，实现了时空网格体元对象编解码存储表示的换算；其次，采用伽罗华有限域理论，构建了网格体元的二进制编码矩阵和存储的低计算量优化算法，实现了体元对象编解码存储过程中的优化计算；最后，以某矿山的矿床空间块体数据为例，对网格体元编解码模型、存储表示换算以及低计算量优化算法进了实际应用，并与八叉树索引结构的Morton码进行比较和分析，结果表明：该方法可有效降低30%的编解码存储计算量，提高了存储网格体元对象的时空效率。

基于信息流的多级动态可信度量模型

迮恺1，陈丹1,2，庄毅1

2018, 40(12): 2156-2163. doi:

摘要 ( 161 )

PDF (1156KB) ( 329 ) 　　

系统运行时受环境和各种外界因素影响，加之内部多实体间信息流相互干扰，可能会破坏系统的可信性，最终导致产生非预期输出。现有研究主要针对初始化可信硬件环境下实体的完整性度量，未能考虑机密性带来的可信影响，同时对于实体可信度量的频率未能与实体推进时机同步。基于此提出一种基于信息流传递理论的多级动态可信度量模型，该模型以信息流的非传递无干扰理论为依据，通过引入可信代理模块，设计一种多级安全访问控制策略，分别从实体完整性和机密性两方面对系统中实体进行动态可信性度量。最后给出该模型的形式化描述和可信证明，结合抽象系统实例来说明该模型的有效性，相比现有研究，所提模型具有更好的度量实时性，是一种上下文感知的细粒度可信度量模型。

基于HMM时间序列预测和混沌模型的DDoS攻击检测方法

董哲1,唐湘滟1,程杰仁1,2,张晨1,林福生1

2018, 40(12): 2164-2172. doi:

摘要 ( 209 )

PDF (643KB) ( 405 ) 　　

分布式拒绝服务（DDoS）攻击是网络环境中最具破坏力的攻击方式之一，现有基于机器学习的攻击检测方法往往直接将某时刻的特征值代入分类器进行分类，没有考虑相邻时刻特征之间的联系，因而导致误报率和漏报率较高。提出一种基于隐马尔科夫模型HMM时间序列预测和混沌模型的DDoS攻击检测方法。针对大规模攻击网络流量的突发性，定义网络流量加权特征NTWF和网络流平均速率NFAR二元组来描述网络流量的特点；然后采用层次聚类算法对训练集进行分类，以获取隐层状态HLS序列，利用NTWF序列和HLS序列对HMM进行监督学习获得状态转移矩阵和混淆矩阵，以预测NTWF序列；最后通过混沌模型分析NTWF序列的预测误差，结合基于NFAR的规则来识别攻击行为。实验结果表明，与同类方法相比，所提方法具有较低的误报率和漏报率。

基于动态DCVS网络模型的流量分析及规划方法

吴博1，王彬1，薛洁2,刘辉1,熊新1

2018, 40(12): 2173-2182. doi:

摘要 ( 121 )

PDF (1315KB) ( 302 ) 　　

针对目前机场远端行李运输目的地编码车系统未对流量进行规划而造成的资源浪费现状，提出了一种基于动态DCVS网络模型的流量分析及规划方法。该方法首先基于图论建立了DCVS静态网络模型，接着根据系统在特定时间段的流量需求，采用最大流最小时间动态流量分析和规划算法对DCVS资源进行动态调度。实验结果显示，该方法可以在很短的时间内完成对DCVS流量的整体分析和规划，实现远端行李运输任务的可行性预测，从而为DCVS资源的控制提供有效的参考依据。

RFID超轻量级认证协议RCIA形式化分析与改进

钟小妹，肖美华，李伟，谌佳，李娅楠

2018, 40(12): 2183-2192. doi:

摘要 ( 189 )

PDF (804KB) ( 352 ) 　　

无线射频识别（RFID）是物联网中的一种非接触式的自动识别技术，被广泛运用于构建物物互联的RFID系统。RCIA是一种超轻量级RFID双向认证协议，提供高安全性并声称能抵御去同步攻击。形式化方法是安全协议分析的有力手段。运用模型检测工具SPIN对RCIA协议的认证性及一致性进行验证，结果表明RCIA协议存在去同步攻击漏洞。针对此漏洞，提出基于密钥同步机制的修补方案，对RCIA协议进行了改进。对改进后的协议进行形式化分析与验证，结果表明改进后的RCIA协议具有更高的安全性。提出的协议抽象建模方法对此类超轻量级RFID双向认证协议形式化分析具有重要借鉴意义；提出的基于密钥同步机制的漏洞修补方案，被证明能有效抵御去同步漏洞，可适用于此类超轻量级RFID双向认证协议的设计和分析。

基于身份部分盲签名方案的分析与改进

曹素珍1，戴文洁1，王彩芬1，王秀娅1，孙晗1,左为平2

2018, 40(12): 2193-2197. doi:

摘要 ( 108 )

PDF (423KB) ( 277 ) 　　

部分盲签名致力于解决匿名性和可控性之间的矛盾，在保护用户隐私的同时又能在必要时追溯用户身份。目前基于身份的部分盲签名方案中普遍存在公共信息被篡改的问题。通过对刘二根的方案的安全性分析，指出其方案中用户可以非法修改公共信息。在此基础上，提出一个改进的基于身份的部分盲签名方案。在随机预言模型下，基于离散对数困难问题，证明了方案在满足部分盲性的同时，能有效抵抗适应性选择消息下的存在性伪造攻击。新方案没有使用计算开销较大的双线性对运算，且克服了公共信息被篡改的缺陷，与现有方案相比，在安全和效率方面都有显著提高。

线特征融合光流的单目SLAM算法

贾哲，冷建伟

2018, 40(12): 2198-2204. doi:

摘要 ( 241 )

PDF (736KB) ( 355 ) 　　

针对移动机器人的定位与建图问题，提出了基于图优化的单目线特征融合光流的同时定位和地图构建(SLAM)的算法。首先,针对主流视觉SLAM算法因采用点作为特征而导致构建的点云地图稀疏、难以准确表达环境结构信息等缺点,采用直线作为特征来构建地图，并采用图优化方法来提高定位精度和地图构建的准确性。然后，针对定位系统的处理速度很难达到实时性要求，将光流法引入以达到实时定位的效果。实验表明，基于线特征的地图构建有较高的建图精度，并且融合算法克服了光流法定位精度差和特征法处理速度慢的缺点，可提供较准确的实时定位输出，并对光照变化和场景纹理较少的情况有一定的鲁棒性。

多尺度宽线检测方法

曲智国，谭贤四，林强,王红，张伟

2018, 40(12): 2205-2210. doi:

摘要 ( 150 )

PDF (651KB) ( 292 ) 　　

针对基于非线性滤波的宽线算子的不足，提出了一种多尺度宽线检测方法。基本宽线检测算子采用单个尺度模板检测图像中的宽线，导致仅能检测宽度小于模板半径的宽线特征，且在多条宽线交叉处检测效果较差；与之不同，多尺度宽线检测方法首先采用多个不同尺度的模板进行检测，然后在多个尺度归一化的检测结果中取最大响应值，再通过阈值分割、滤波处理等后处理步骤得到最终的检测结果。分别利用仿真图像和实际图像对多尺度宽线算子进行了性能测试，实验结果表明，多尺度宽线检测方法克服了基本宽线算子的不足，较好地检测出了图像中的宽线特征。

基于暗原色先验的雾霾天气图像清晰化算法

马啸，邵利民，徐冠雷

2018, 40(12): 2211-2218. doi:

摘要 ( 163 )

PDF (1170KB) ( 403 ) 　　

传统基于暗原色先验的去雾算法稳定且去雾效果好，但算法运行时间长。为在运算时间和图像清晰度之间取得平衡，在传统基于暗原色先验的去雾算法基础上，提出一种新的雾霾天气图像清晰化算法。算法在求原始有雾图像的暗原色时,将传统基于暗原色先验算法中固定的局部区域大小设置为随图像大小变化的值，从而增强算法的自适应性；设置大气光值的阈值，避免大气光估计值过高造成的去雾后图像整体向白场过渡；采用导向滤波算法代替传统基于暗原色先验算法中的软抠图算法，提升算法的运行效率；最后利用自动色阶算法调整去雾后图像颜色的明暗分布。实验结果表明，该算法输出的图像对比度、清晰度好，色彩保真度高，明暗分布合理，算法稳定且运行时间短，实现了清晰度和运算时间的平衡。

基于显著性判别的缺陷检测方法

周洲，黄茜，胡志辉

2018, 40(12): 2219-2223. doi:

摘要 ( 156 )

PDF (514KB) ( 339 ) 　　

X射线成像存在噪声大、半影现象及散射等问题，使所得缺陷图像边缘模糊，背景灰度变化不均匀，严重影响了缺陷的识别准确率。提出了一种由LoG边缘检测和局部对比度筛选进行显著性判别的缺陷检测方法，在基于LoG边缘检测的双阈值进行显著性边缘检测的基础上，通过各向同性扩散方法求取待定缺陷的局部背景，利用待定缺陷和局部背景之间对比度的显著性设置第三个阈值进行进一步判断，从而去除假缺陷，使缺陷能够被准确地提取出来，并可以同时确定缺陷的轮廓和面积。实验结果表明，该方法对缺陷识别的准确度较高，并可以用于在线的实时检测系统中。

多策略候选集构建与实体链接

杨紫怡，盛晨，孔芳,周国栋

2018, 40(12): 2224-2233. doi:

摘要 ( 117 )

PDF (801KB) ( 347 ) 　　

针对实体链接中候选集构建问题提出了一种多策略结合的候选集构建算法。综合利用多种策略提取上下文中的完整指称，降低候选实体数量，同时提高正确实体的召回率，构建一个高质量的实体候选集。在TAC2014英文语料上使用本文提出的多种策略进行了实验和分析，确定最优候选集构建策略的同时，也证明了本文方法确实能够达到提升候选集召回率和准确率的目的。进一步验证了候选集质量对完整的实体链接系统的性能影响明显。相比基准算法，使用最优候选集构建策略提取的候选集能使整体的实体链接系统的性能提升3.7%。

不确定近似骨架蚁群聚类算法在滑坡危险性预测中的研究与应用

刘卫明1,2，李忠利1，毛伊敏1

2018, 40(12): 2234-2242. doi:

摘要 ( 106 )

PDF (831KB) ( 428 ) 　　

受不确定因素降雨难以准确处理的制约以及蚁群聚类算法在搜索空间容易陷入局部最优解和搜索速度慢的特征影响，为了提高滑坡危险性预测的精度，提出一种不确定近似骨架蚁群聚类算法。首先采用Gauss点概率模型来描述不确定数据，对不确定数据进行相似性度量；其次引入信息素重分配和自适应动态变量实现蚁群聚类算法局部信息素和全局信息素更新，提高蚁群聚类算法搜索速度，加载遗传算法避免蚁群聚类算法过早陷入局部最优；最后结合近似骨架理论，构建不确定近似骨架蚁群聚类算法模型，缩减迭代次数，快速搜索出聚类结果。在UCI真实数据集和延安宝塔区滑坡实验数据集上的实验结果显示，不确定近似骨架蚁群聚类
算法具有较高的聚类质量，预测精度达到93.3%，验证了算法在滑坡危险性预测中的可行性。

自适应表压缩方法优化STR算法

李少兴,李占山,于海鸿

2018, 40(12): 2243-2251. doi:

摘要 ( 80 )

PDF (578KB) ( 254 ) 　　

表约束，也称为外延式约束，是约束编程领域最常见的约束形式，表压缩方法通过紧凑的表示元组集可以极大地缩减空间消耗，同时加速 GAC 算法。笛卡尔乘积表示和短支持是表约束中最常见的两种表压缩方法，两种表压缩方法在同一问题上的压缩率是影响它们优化效果的主要原因。基于 STR 算法提出一种自适应表压缩方法，在求解问题时自适应选择压缩率大的表压缩方法，将自适应表压缩方法应用到 STR2 上提出了 STR2Adaptive 算法，可以同时覆盖两种表压缩方法的优势。实验结果表明，STR2Adaptive 算法在绝大部分实例上都能自适应选择最佳的表压缩方法，有效地减少了STR2算法空间消耗和CPU运行时间。然后将自适应表压缩方法扩展到采用了高效的比特向量表示的 STRbit 算法上提出了 STRbitAdaptive 算法。实验结果表明，STRbitAdaptive 算法效率同样普遍优于 STRbit 算法。

改进约束鸡群算法在神经网络的应用

张莹杰，张树群

2018, 40(12): 2252-2257. doi:

摘要 ( 139 )

PDF (587KB) ( 295 ) 　　

针对基本鸡群优化算法CSO存在收敛速度慢、易陷入局部最优等问题，提出一种改进约束鸡群算法ICCSO，改进了基本鸡群算法的边界约束处理机制，提高了算法的收敛速度和全局搜索能力。以标准测试函数和BP神经网络为例进行数值仿真,仿真结果表明了所提出的改进约束鸡群优化算法的合理性及有效性。

一种基于局部扩展优化的重叠社区发现算法

李慧，杨青泉，王慧慧

2018, 40(12): 2258-2264. doi:

摘要 ( 154 )

PDF (632KB) ( 294 ) 　　

挖掘复杂网络的重叠社区结构对研究复杂系统具有重要的理论和实践意义。提出一种基于局部扩展优化的重叠社区识别算法。
首先基于网络节点的聚集系数筛选种子节点，选取不相关的、局部聚集系数大的种子作为初始社区；然后采用贪心策略扩展初始社区，得到局部连接紧密的自然社区；最后检测并合并相似的社区，获得高覆盖率的重叠社区结构。在人工生成网络和真实网络数据集上的实验结果表明，与现有的基于局部扩展的代表性重叠社区发现算法相比，所提算法能在稀疏程度不同的网络上发现更高质量的重叠社区。

基于聚类标签均值的半监督支持向量机

田勋，汪西莉

2018, 40(12): 2265-2272. doi:

摘要 ( 105 )

PDF (830KB) ( 267 ) 　　

针对标签均值半监督支持向量机在图像分类中随机选取无标记样本会导致分类正确率不高，以及算法的稳定性较低的问题，提出了基于聚类标签均值的半监督支持向量机算法。该算法修改了原算法对于无标记样本的惩罚项，对选取的无标记样本聚类，使用聚类标签均值替换标签均值。实验结果表明，使用聚类标签均值训练的分类器大大减少了背景与目标的错分情况，提高了分类的正确率以及算法的稳定性，适合用于图像分类。

具有树和路约束的平行机排序问题

程佳乐，李伟东

2018, 40(12): 2273-2279. doi:

摘要 ( 111 )

PDF (448KB) ( 297 ) 　　

考虑具有树和路约束的平行机排序问题，其工件集对应于无向图(有向图)的边(弧)集。目标是选取工件集的一个子集使其满足树或路的约束，将其放在平行机上处理，使得机器的最大完工时间(makespan)尽可能地小。通过分析此类问题的组合性质，得到如下结论：在K-树约束下，利用最小支撑K-树的性质可得一个有效多项式时间近似方案；在两固定点间路的约束下，通过构造辅助实例以控制边的权重，分析辅助实例的输出值与目标实例最优值之间的关系，利用最短路的性质可以得到一个2-近似算法；在单源点最短路径树的约束下，根据最短路径树的性质可以得到一个有效多项式时间近似方案；在两固定点间最短路的约束下，在所有的两点间最短路构成的子图基础上，通过构造新的辅助图以控制弧的权重，再利用最短路的性质可以得到一个1.618-近似算法。

基于CTL模型检测的胃腺癌核心路径形式化验证

王亚鹏，雷丽晖

2018, 40(12): 2280-2286. doi:

摘要 ( 79 )

PDF (813KB) ( 281 ) 　　

胃腺癌是消化系统最常见的恶性肿瘤，死亡率居消化道各类癌症之首。其发生发展是多步骤、多因素参与的复杂过程，涉及到多种蛋白分子的改变以及信号通路的异常，但其确切发病机制目前尚不清楚，研究其发病机理,探索有效治疗方法一直是医学研究最重要的课题之一。因此，对胃腺癌信号转导网络的研究有助于阐明其发病机制。目前，在胃腺癌的发生发展过程中由于基因的改变而导致细胞功能的变化，以及癌细胞环境因子通过作用于其受体和信号转导通路而影响其他正常细胞的功能。胃腺癌的信号转导网络非常复杂,通过对胃腺癌信号转导网络离散值模型的分析和验证，说明靶向胃腺癌信号通路或蛋白治疗的优越性。应用符号模型检测技术自动分析靶向信号通路或蛋白是如何影响胃腺癌细胞命运，了解胃腺癌的发生发展机理，从中找到潜在靶点，为治疗胃腺癌提供建议，使研制新的抗癌药物成为可能。

当期目录

作者中心

审稿中心

在线期刊