计算机工程与科学

2020年12期目录

2020, 42(12): 0-0. doi:

摘要 ( 146 )

PDF (347KB) ( 321 ) 　　

2020年中国高性能计算机发展现状分析

袁国兴, 张云泉, 袁良

2020, 42(12): 2103-2108. doi:

摘要 ( 312 )

PDF (933KB) ( 295 ) 　　

根据2020年11月发布的中国高性能计算机性能TOP100排行榜的数据，对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析，同时对未来发展进行了展望。

申威架构下的虚拟机访存特征提取方法

沙赛, 王超, 杜翰霖, 罗英伟, 汪小林, 王振林

2020, 42(12): 2109-2116. doi:

摘要 ( 259 )

PDF (946KB) ( 249 ) 　　

虚拟化技术是云服务的重要支柱之一，虚拟化充分扩展了物理资源的灵活性，提升了物理资源的利用率。随着国家信息化水平的发展，云服务器核心技术自主可控、安全高效的要求不断提高。近年来，作为国产服务器的典型代表，申威架构服务器的功能不断完善。提出了申威架构上的虚拟机访存特征提取方法，充分利用了申威架构独特优势，实时测算虚拟机的内存缺失率曲线，并最终计算工作集大小，同时利用热页集机制大幅度减少页面追踪的性能开销。实验结果表明，该方法可以准确计算虚拟机工作集大小，平均误差低于3%，平均性能开销不高于8.3%。本工作为申威虚拟机内存动态分配提供条件，最终目标是提高申威云服务器整体性能和内存利用率。

一种高可扩展的通用CFD软件架构设计与原型系统实现

郭晓威, 李超, 刘杰, 徐传福, 龚春叶, 陈丽娟

2020, 42(12): 2117-2124. doi:

摘要 ( 319 )

PDF (1020KB) ( 424 ) 　　

基于国内自主通用计算流体力学CFD软件研制的现状，分析了高可扩展的通用CFD软件架构设计的目标，提出了一种基于面向对象的、高度解耦的层次化通用CFD软件架构，并基于该架构设计实现了一款软件原型系统。最后通过一个完整的CFD案例对原型系统进行了测试与分析，验证了该软件架构的可行性。

基于异构多核SoC的LT码编码硬件化技术研究

江仲鸣, 杨全胜

2020, 42(12): 2125-2132. doi:

摘要 ( 199 )

PDF (669KB) ( 236 ) 　　

对异构多核SoC进行建模分析，将LT编码在异构多核SoC上的实现问题转化为LT码编码子任务在异构多核SoC上的映射问题，并给出了基于遗传算法的任务映射方法。最后基于XILINX ZYNQ-7000异构多核SoC实现了LT码编码器。实验结果表明，所设计的LT码编码器能够
满足不同的性能和资源需求，增加了硬件平台的实用性和应用系统设计的灵活性。

面向异构超算的结构分析高效并行计算方法

丁峻宏, 苗新强, 李根国

2020, 42(12): 2133-2140. doi:

摘要 ( 253 )

PDF (820KB) ( 359 ) 　　

为充分利用异构超算众核环境下的高效计算性能，提出一种针对有限元结构力学分析的多层次多粒度协同并行计算方法。该方法将每个计算作业从结点间、设备间和核间3个层次进行划分。每个计算作业被分解映射到异构超算的各硬件层面运行，在有效处理CPU与MIC之间负载均衡问题的基础上显著降低了异构超算的通信成本。在“天河二号”上开展了针对几个大规模工程案例的计算测试，所启动的CPU+MIC核数总计达39 000个，计算模型有限元规模超过1亿单元。测试结果表明,该方法进行有限元结构分析大规模并行计算时能够获得良好的加速比和并行计算效率，实现了有限元结构分析与异构众核计算平台的优化适配，可为同类应用问题的并行移植和性能优化提供借鉴与参考。

基于TrustZone的安全应用性能优化

杨保绚, 董攀, 张利军, 丁滟

2020, 42(12): 2141-2150. doi:

摘要 ( 258 )

PDF (928KB) ( 230 ) 　　

TrustZone技术已广泛应用于各种智能系统的安全防护，例如数据加解密、指纹登录、DRM版权和电子支付等。TrustZone技术为程序提供了一个同主机环境相隔离的可信执行环境（TEE），对重要的代码和数据提供运行时保护，因此基于TrustZone的安全应用程序调用过程发生了变化，增加了安全和非安全世界之间数据共享、消息传递等过程，带来了额外性能开销。通过对基于TrustZone的安全应用运行过程进行深入剖析，发现了影响应用程序性能的4个关键要素：世界切换、中断、共享内存管理和数据内存拷贝，在此基础上针对关键要素分别提出性能优化方法。通过基于TrustZone技术的AES加密服务，对比测试性能优化方法，验证了方法的有效性。实验表明：
（1）通过合理设置参数，最大可以实现31%的性能提升；
（2）屏蔽外部中断，最大可以实现4.5%的性能提升；
（3）内存复用最大可以实现37%的性能提升；
（4）减少内存数据拷贝最大可以实现39%的性能提升。

原子动力学蒙特卡洛程序OpenKMC在反应堆压力容器钢缺陷损伤研究中的优化与应用

尚子豪, 商红慧, 王东杰, 张云泉, 贺新福, 陈泽华, 王栋, 张广婷

2020, 42(12): 2151-2162. doi:

摘要 ( 256 )

PDF (2682KB) ( 253 ) 　　

将具有体心立方结构的Fe-Cu二元合金作为RPV模型材料，分别采用基于Pair势和嵌入原子势(EAM)的动力学蒙特卡洛方法，以引入空位点缺陷的方式模拟了热时效下系统中富铜团簇的析出过程。同时对程序实现了计算优化，并验证了算法的正确性与有效性。利用高性能计算资源对优化后的程序进行了性能分析。数值实验结果表明，通过引入一定数量的空位点缺陷，体系内可以同时析出富铜团簇和铜-空位复合体团簇，并且这种复合体团簇更易成为体系内尺寸最大的团簇。增加体系内的空位数量可以加快沉淀的析出过程。另外，增加空位数量不会对体系总的团簇数量密度产生显著影响，但是能够促进团簇粗化，使其成长为尺寸更大的沉淀。

潜艇使用自航式声诱饵防御鱼雷模型并行计算方法研究

李雯, 迟利华, 张会, 张哲, 刘杰,

2020, 42(12): 2163-2168. doi:

摘要 ( 234 )

PDF (599KB) ( 302 ) 　　

潜艇使用自航式声诱饵防御声自导鱼雷是水下防御的主要手段之一，传统穷举统计方法计算量随决策参数增多而急剧增加，无法满足实时性要求。从基于多实体有限状态机的鱼雷防御模型出发，提出了2级并行策略，在进程和线程间划分仿真循环，通过数据交换作出最优决策。实验结果表明，并行后的模型可以在短时间内作出和实际作战情况相近的决策，在404个方案仿真的计算量下，模型运行时间从144.65 s缩短至1.2 s，获得了120倍的加速比，有效解决了实时方案决策的问题。

面向数据库查询加速的异构体系结构设计与实现

李仁刚, 任智新, 黄广奎, 孙颉, 王峰, 张闯,

2020, 42(12): 2169-2178. doi:

摘要 ( 268 )

PDF (1106KB) ( 352 ) 　　

数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载，是提高系统整体性能的关键。传统数据库系统查询执行效率偏低，并且CPU通常需要优先处理事务性负载，使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了提高数据库在大规模并发访问时的数据处理能力，提出了一种CPU+FPGA加速数据库查询的异构体系结构，通过使用异构缓存一致性加速接口将加速器集成到CPU中，在FPGA内定制可配置的多引擎查询方式，对数据库查询进行加速。聚焦常用的SQL查询语句SELECT，详细分析了系统在延迟和简化的软件堆栈方面的优势，最后使用浪潮F37X加速卡和浪潮服务器对加速模型功能和性能进行了验证。实验结果表明，与使用POWER 9 CPU进行同样的查询操作相比，数据库系统整体处理速度提高了3～9倍，这种先进的异构计算加速结构可应用在未来数据库硬件专业化的设计中。

支持RISC-V向量指令的汇编器设计与实现

邓平, 朱小龙, 孙海燕, 任怡

2020, 42(12): 2179-2185. doi:

摘要 ( 267 )

PDF (543KB) ( 277 ) 　　

向量运算可以有效提高计算机的运算效率，减少不必要的硬件开销，随着CPU运算能力的提升和寄存器位数扩展等硬件的进一步发展，向量运算成为实际芯片架构设计中最常用的提高处理器性能的技术。受到业界广泛关注的RISC-V体系结构也借助向量技术提高性能，但目前开源版本的RISC-V汇编器只支持标量指令程序，不支持向量指令的汇编。基于GNU的Binutils汇编器，设计并实现了支持RISC-V向量指令的汇编器，该汇编器可完成向量指令的汇编和反汇编工作，同时其扩展实现也可以为其他指令模块的扩展支持提供参考。

融合时空上下文的复杂背景下多运动目标检测

张寅, 蔡旭阳, 许倩倩, 闫钧华, 苏恺, 张琨

2020, 42(12): 2186-2192. doi:

摘要 ( 192 )

PDF (734KB) ( 282 ) 　　

针对目标进、出视场和被部分遮挡情况下检测率低的问题，提出一种联合时空上下文的多运动目标检测算法STC-MMTD。首先，利用时间上下文信息，基于前后向运动历史图提取候选目标区域；然后，利用空间上下文信息和目标表观信息，通过基于稀疏编码的CRF模型计算目标置信度图；最后，计算候选目标区域的目标置信度，检测出多运动目标。实验结果表明，所提算法具有良好的检测性能，在保证较高定位精度的同时，查全率、查准率和F测度均高于其他多目标检测算法的。

融合分区与Canny泛函的水平集对猴脑提取的研究

郭晋秀, 张月芳, 邓红霞, 李海芳

2020, 42(12): 2193-2198. doi:

摘要 ( 152 )

PDF (594KB) ( 191 ) 　　

传统水平集算法对初始轮廓的位置选择具有随机性，且缺少对边缘信息的处理，因此无法实现对脑组织边缘的准确提取。为此，融合分区与Canny泛函的水平集算法首先融合分区的思想，结合各区域的形态信息完成初始轮廓位置选定，使初始轮廓包含较多脑组织区域，提高了脑提取效率。其次，在能量泛函中融合了Canny算子，在保留传统水平集算法处理灰度不均匀图像的优越性的同时提高了对猕猴脑边缘检测的准确率。实验结果表明，该算法实现了对猕猴脑的准确提取，准确度最高可达到86%。

基于判别低秩矩阵恢复和协同表示的遮挡人脸识别

孙雨浩, 陶洋, 胡昊

2020, 42(12): 2199-2207. doi:

摘要 ( 167 )

PDF (845KB) ( 243 ) 　　

针对训练样本和测试样本均受到严重的噪声污染的人脸识别问题，传统的子空间学习方法和经典的基于稀疏表示的分类(SRC)方法的识别性能都将急剧下降。另外，基于稀疏表示的方法也存在算法复杂度较高的问题。为了在一定程度上缓解上述问题，提出一种基于判别低秩矩阵恢复和协同表示的遮挡人脸识别方法。首先，低秩矩阵恢复可以有效地从被污损的训练样本中恢复出干净的、具备低秩结构的训练样本，而结构非相关性约束的引入可以有效提高恢复数据的鉴别能力。然后，通过学习原始污损数据与恢复出的低秩数据之间的低秩投影矩阵，将受污损的测试样本投影到相应的低维子空间，以修正污损测试样本。最后，利用协同表示的分类方法(CRC)对修正后的测试样本进行分类，获取最终的识别结果。在Extended Yale B和AR数据库上的实验结果表明，本文方法对遮挡人脸识别具有更好的识别性能。

无人机载荷图像地理信息拼接及验证算法

梁中岩, 戚红雨, 王伟良, 胡杰

2020, 42(12): 2208-2216. doi:

摘要 ( 165 )

PDF (859KB) ( 214 ) 　　

在传统的视频图像处理技术中，图像内容的处理以及处理的准确性、快速性往往是研究者关注的重点，而无人机视频图像所携带的地理数据信息常常被忽略，从而导致在图像处理完成以后，图像仅包含场景信息而丢失地理信息数据，使得用户无法从图像处理结果中快速获取感兴趣目标的地理信息数据。为有效处理地理信息，带地理信息的无人机图像拼接算法及验证算法将地理信息数据看成是多通道双精度浮点型矩阵数据，可对其使用矩阵处理算法进行同步计算。同时，利用基于分组控制的带地理信息的图像拼接算法可提高执行大量图像拼接任务时的准确性和速度。实验结果表明，该算法能够有效地处理带地理信息的无人机图像，特别是在图像拼接方面。

快速多域卷积神经网络和光流法融合的目标跟踪

张晓丽, 张龙信, 肖满生, 左国才

2020, 42(12): 2217-2222. doi:

摘要 ( 249 )

PDF (727KB) ( 360 ) 　　

针对卷积神经网络目标跟踪算法速度较慢的问题，提出一种融合快速多域卷积神经网络(Faster MDNet)与光流法的目标跟踪算法。使用光流法获取目标的运动状态并取得初选框作为跟踪目标位置，然后将初选框用作Faster MDNet的输入，使用Faster MDNet作为检测器，取得跟踪目标的确切位置和边界框。在基准数据集VOT2014上的实验表明，该算法在线跟踪速度比对比算法提高了8倍，精度提升了约10%。

基于多尺度卷积神经网络的人群聚集异常预测

罗凡波, 王平, 徐桂菲, 雷勇军, 范烊

2020, 42(12): 2223-2232. doi:

摘要 ( 346 )

PDF (1038KB) ( 476 ) 　　

已有的公共场所人群聚集异常行为检测方法较少，且大多检测方法都是在人群已经异常聚集后再进行检测，检测准确率不高，时效性不够好。提出一种基于多尺度卷积神经网络（MCNN）的人群聚集异常预测模型。首先，通过多尺度卷积神经网络训练一个人群计数模型，用训练好的模型对人群聚集异常视频进行测试；然后在测试中完成人群人数统计与人群头部坐标点获取，进而计算人群密度、人群距离势能与人群分布熵；最后将得到的3种人群运动状态特征值利用PSO-ELM进行训练，得到预测模型，通过特征数据的变化，完成人群聚集行为的预测。实验结果表明，与现有算法相比，该模型能有效实现人群聚集异常行为的预警与检测，时效性强，为采取相应应急措施提供了更多时间，预测准确率达到了9717%。

非均匀变异的互利自适应缎蓝园丁鸟优化算法

王依柔, 张达敏, 樊英

2020, 42(12): 2233-2241. doi:

摘要 ( 213 )

PDF (1020KB) ( 292 ) 　　

针对缎蓝园丁鸟优化（SBO）算法求解精度不高和收敛速度慢等问题，提出一种改进的缎蓝园丁鸟优化（ISBO）算法。首先，引入非均匀变异算子，动态地调整每次迭代园丁鸟个体的搜索步长，使算法能快速高效地寻求全局最优值；其次，采用互利因子对算法的社会部分引入更多组合模式，使其不再单一围绕前一个园丁鸟附近搜索，以获取更好的最优解；最后，为了更好地平衡算法的局部与全局搜索能力，引入余弦变化的惯性权重因子来更新园丁鸟的位置公式。使用收敛速度分析、Wilcoxon检验和8个基准函数对5种算法搜索性能进行对比分析，来评估改进缎蓝园丁鸟优化算法的效率。结果表明，改进算法具有更好的全局搜索能力和求解鲁棒性，同时寻优精度和收敛速度也比原来算法有所增强。

面向在线客服系统的调度算法研究

嵇友浪, 朱君, 邹云峰１, 周子馨, 陈兴

2020, 42(12): 2242-2251. doi:

摘要 ( 290 )

PDF (1046KB) ( 258 ) 　　

与传统客服系统相比，在线客服系统的坐席需同时为多位客户提供业务服务，使客服与客户之间的适配与调度问题更为复杂。在分析在线客服特征的基础上，提出了一种面向在线客服系统的调度模型，模型由客户多优先级客户队列、系统状态集及其转换关系、状态与调度策略之间的映射构成，并设计了相应的调度算法。通过实验验证了模型的合理性和算法的有效性。与运营中的客服系统相比，算法在实现较高质量服务的情况下，既较大幅度地降低了客户的平均等待时间，又确保了客服之间的负载均衡。

带两个服务等级的3台机半在线算法

肖满, 丁璐, 张怡

2020, 42(12): 2252-2258. doi:

摘要 ( 133 )

PDF (395KB) ( 164 ) 　　

研究了3台机上带有2个服务等级的半在线排序问题，其中等级为1的机器只有1台，等级为2的机器有2台，目标为极小化机器最大完工时间。在已知等级为1的工件加工时间之和时，给出一个下界为3/2和一个竞争比为5/3的在线算法；在已知等级为2 的工件加工时间之和时，给出一个下界为3/2和一个竞争比为9/5的在线算法；在分别已知2个等级的工件加工时间之和时，给出一个下界为4/3和一个竞争比为3/2的在线算法；在已知工件总的加工时间时，给出一个竞争比为3/2的最优在线算法。

基于AO算法的数据流频繁项集挖掘

文凯, 耿小海, 朱璐伟, 许萌萌,

2020, 42(12): 2259-2264. doi:

摘要 ( 152 )

PDF (639KB) ( 200 ) 　　

针对传统数据流频繁项集挖掘算法在支持度更新、窗口更新方式、频繁k-项集挖掘等方面存在的一系列问题，造成空间和时间效率不高，改进研究了一种高效挖掘数据流频繁项集的AO算法。采用滑动窗口思想，对数据流分块挖掘；在满窗口有新数据流入时，采用取余插入完成数据更新；挖掘频繁k-项集采用And Operation求解支持度，并在挖掘过程结合超集检测，极大地提高了挖掘效率。实验结果表明，该算法在时间和空间效率上均有一定的优越性。

融合关键词的中文新闻文本摘要生成

宁珊, 严馨, 徐广义, 周枫 , 张磊,

2020, 42(12): 2265-2272. doi:

摘要 ( 290 )

PDF (639KB) ( 313 ) 　　

针对现有基于seq2seq模型在生成摘要时容易出现语义无关的摘要词，同时没有考虑到关键词在摘要生成中的作用，提出一种融合关键词的中文新闻文本摘要生成方法。首先将源文本词依次输入到Bi-LSTM模型中；然后将得到的时间步隐藏状态输入到滑动卷积神经网络，提取每个词与相邻词之间的局部特征；其次利用关键词信息和门控单元对新闻文本信息进行过滤，去除冗余信息；再通过自注意力机制获得每个词的全局特征信息，最终编码得到具有层次性的局部结合全局的词特征表示；将编码得到的词特征表示输入到带有注意力机制的LSTM模型中解码得到摘要信息。该方法通过滑动卷积网络对新闻词的n-gram特征建模，在此基础上利用自注意力机制，获得具有层次性的局部结合全局的词特征表示。同时，考虑了关键词在新闻摘要生成中的重要作用，利用门控单元去除冗余信息，以获得更精准的新闻文本信息。在搜狗全网新闻语料上的实验表明，该方法能够有效提高摘要生成质量，能够有效地提高ROUGE-1、ROUGE-2、ROUGE-L值。

基于Doc2Vec和BiLSTM的老年患者疾病预测研究

藏润强, 左美云, 郭鑫鑫

2020, 42(12): 2273-2279. doi:

摘要 ( 244 )

PDF (919KB) ( 239 ) 　　

基于电子病历的疾病预测一般是根据病人的症状预测疾病，而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法，该表示法考虑了具有时序性的医疗疾病上下文信息，利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病，可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证，结果发现模型能够有效地预测出老年人新的疾病，且在保证预测准确率的同时还具有一定的稳定性。

三支决策视角下的属性约简加速方法

姜春茂, 刘安鹏

2020, 42(12): 2280-2286. doi:

摘要 ( 196 )

PDF (1625KB) ( 203 ) 　　

属性约简是粗糙集领域的核心研究内容，在此基础上发展出了集成属性约简。所谓集成约简是将样本依据决策类别划分为多个决策系统分别计算。集成属性约简虽然能够平衡各个决策类的需求，但增加了约简的时间消耗。为了解决这一问题，提出了一种基于序贯三支决策的属性约简加速方法。具体步骤如下：
（1）计算决策系统中的属性重要度；
（2）将属性重要度的结果进行三分，重要度最大的属性划入到正域中，重要度为零的属性划入到负域中，其余属性划入到边界域中；
（3）循环计算边界域中属性的重要度，并将结果继续三分类直至约简结果满足约束条件。
选取了8组UCI 数据集，在传统属性约简和集成约简环境下分别进行实验。结果表明，在保证分类性能的前提下，新方法能够分别在2种环境下有效降低求解约简的时间消耗。

基于深度学习的网购评论命名实体识别方法

仇增辉, 赫明杰, 林正奎

2020, 42(12): 2287-2294. doi:

摘要 ( 185 )

PDF (663KB) ( 257 ) 　　

针对网购评论命名实体识别中重要词汇被忽略的问题，在评论短文本处理基础上，借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先，用词向量和词性向量的组合来表示评论文本语义信息；其次，用BiLSTM提取文本特征；然后，引入多头注意力机制从多层面、多角度提升模型性能；最后，用条件随机场（CRF）识别命名实体。实验结果表明，该方法能提升网购评论实体识别效果。

当期目录

作者中心

审稿中心

在线期刊