计算机工程与科学

2021年第4期目录

2021, 43(4): 0-0. doi:

摘要 ( 309 )

PDF (292KB) ( 332 ) 　　

实时机模型及时间语义指令集研究

陈香兰, 李曦, 汪超, 周学海

2021, 43(4): 571-578. doi:

摘要 ( 683 )

PDF (730KB) ( 556 ) 　　

混合关键系统中，具有不同安全和时间关键度的应用程序共享计算资源。由于系统中存在多种不确定性，设计者需要能同时满足功能行为确定性、时间行为可预测性和高计算性能等多重设计约束的紧致时间设计方法，对现有计算机体系结构及编程语言的理论和方法提出了新的挑战。提出支持时间语义的实时机模型RTM和时间触发指令集TTI，作为构建多层次协同的紧致时间设计方法MTTT的重要基础。最后以直升机飞控程序为例，说明RTM思想和TTI指令集的有效性。

Proto-Perf：快速精确的通用处理器原型系统性能评估方法

郭辉, 黄立波, 郑重, 隋兵才, 王永文

2021, 43(4): 579-585. doi:

摘要 ( 740 )

PDF (625KB) ( 596 ) 　　

性能验证及评估是通用处理器设计实现过程中最重要且必须实施的关键步骤之一。高效的通用处理器原型系统性能评估方法不仅可以帮助处理器设计人员在处理器设计阶段尽早地定位性能设计缺陷，而且还可以在设计流片前验证处理器能否达到性能设计预期。然而，对处理器原型系统进行完整的性能测试需要运行较长的时间，这样巨大的时间开销导致设计人员无法及时进行性能设计分析，进而导致处理器原型系统的性能评估成为整个项目的瓶颈。提出了一种快速精确的通用处理器原型系统性能评估方法Proto-Perf。Proto-Perf性能评估方法使用动态程序分析方法和基本块聚合技术抽取测试程序的特征程序片段进行测试，显著地缩短了性能测试时间。实验结果表明，相比于完整运行SPEC CPU2006 REF数据规模测试程序获得的性能数据，使用Proto-Perf测试得到的性能数据的绝对误差平均达到1.53%，其中最高达到7.86%。并且，对于实验中的每个程序，使用Proto-Perf方法进行测试的时间都明显缩短。

基于Soft-NMS的候选框去冗余加速器设计

李景琳, 姜晶菲, 窦勇, 许金伟, 温冬

2021, 43(4): 586-593. doi:

摘要 ( 686 )

PDF (1092KB) ( 467 ) 　　

目标检测任务通常使用非极大值抑制算法（NMS）删除卷积神经网络输出的冗余候选框。Soft-NMS使用逐步衰减候选框得分值的方法代替Hard-NMS中直接删除大于预定义阈值候选框的方法，可以避免误删图像中重叠的目标候选框，提高目标检测任务的准确率。但是，频繁地改变候选框得分值使得Soft-NMS较Hard-NMS更为复杂，为了实现高准确率、低延时、低功耗的候选框去冗余效果，提出一种基于Soft-NMS的体系结构，利用对数函数优化复杂的浮点计算，细粒度流水和粗粒度并行组成2级优化结构进一步提升算法的吞吐率。在XILINX KU-115 FPGA开发板上对该体系结构进行了评估，评估结果表明，该体系结构的功耗为6.107 W，处理992个候选框的延时为168.95 μs,与CPU实现的Soft-NMS相比，该体系结构实现了36倍的性能提升,性能功耗比为CPU实现的264倍。

基于MPI的高精度归约函数设计与实现

何康, 黄春, 姜浩, 谷同祥, 齐进, 刘杰,

2021, 43(4): 594-602. doi:

摘要 ( 815 )

PDF (616KB) ( 415 ) 　　

随着科学工程计算大规模、高维数和长时程的特性越来越显著，浮点舍入误差的累积效应往往使得计算结果不可信，提高计算精度成为了并行计算领域研究的热点之一。基于MPICH3框架，采用无误差变换技术构建新的数据格式和相应运算操作符，设计了高精度归约函数MPI_ACCU_REDUCE，实现了高精度的求和、求积和求L2范数3种MPI归约运算。数值实验结果表明，提出的3种高精度归约运算有效提高了数值计算的精度。

基于帧缓冲队列的边缘视频处理加速方法

程小兰, 蒋从锋, 欧东阳, 任永坚, 张纪林, 万健,

2021, 43(4): 603-613. doi:

摘要 ( 741 )

PDF (1277KB) ( 524 ) 　　

由于边缘设备的计算能力有限，处理高分辨率、高帧率的视频时极易造成帧堆积。同时，视频参数的多样性也会影响视频处理的效果，需要自适应调整系统参数以保证视频处理性能。针对视频处理的帧堆积问题提出了在帧接收和帧处理间加入缓冲区即帧缓冲队列的方法，来并行处理缓冲帧，以解决帧接收时延问题，加速视频处理。实验结果表明，帧缓冲队列解决了边缘视频处理系统丢帧问题，满足帧实时处理的同时，降低了系统功耗，提高了实时处理边缘视频数据的能力。

基于GPU的海量离散点高程并行插值算法

王智广, 张腾畅, 吴相锦, 鲁强,

2021, 43(4): 614-619. doi:

摘要 ( 525 )

PDF (605KB) ( 444 ) 　　

提出一种基于GPU的高程并行插值算法，实现了对三维地表上海量离散点的并行加速渲染。通过高程纹理组织三维地表网格高程数据作为离散点渲染的基础，并通过GLSL编写GPU着色器程序动态控制图形渲染管线，实现视点相关的高程并行插值算法。实验结果表明，提出的基于GPU的高程并行插值算法较传统的内存插值算法，将三维地表上海量离散点的渲染量级从百万级提高到了千万级。

一种多核处理器直连接口QoS的设计与验证

罗莉, 周宏伟, 周理, 潘国腾, 周海亮, 刘彬

2021, 43(4): 620-627. doi:

摘要 ( 538 )

PDF (901KB) ( 589 ) 　　

多核处理器直接互连构建多路并行系统，一直是提高高性能计算机并行性的主要方式。主要研究多核处理器直连接口的QoS设计，通过直连接口完成跨芯片的Cache一致性报文有效、可靠传输，实现共享主存的SMP系统。详细阐述了直连接口各个协议层的QoS设计的关键技术，基于UVM方法学构建了可重用验证平台，模拟验证了QoS设计的正确性，移植到FPGA原型验证平台，顺利通过了测试。深入研究和实现处理器芯片直连技术，是提升高性能多路服务器的主流方向，具有良好的应用和研究前景。

基于FPGA的高效可伸缩的MobileNet加速器实现

萧嘉乐, 梁东宝, 陈弟虎, 粟涛

2021, 43(4): 628-633. doi:

摘要 ( 1031 )

PDF (723KB) ( 578 ) 　　

MobileNet网络是一种广泛应用于嵌入式领域的深度神经网络，为了解决其硬件实现效率低的问题，同时达到在不同硬件资源下具有一定可伸缩性，提出了基于FPGA的一款MobileNet网络加速器结构，针对网络的堆叠结构特性设计了三级流水的加速阵列，并实现了在0～4000乘法器开销下都达到70%以上的计算效率。最终在XILINX Zynq-7000 ZC706开发板上实现了MoblieNet网络加速器，在150 MHz工作频率下，可达到156 Gop/s的性能和61%的计算效率，计算效率高于其他MobileNet网络加速器的。

基于RMC的蒙特卡罗程序性能优化

徐海坤, 匡邓晖, 刘杰, 龚春叶,

2021, 43(4): 634-640. doi:

摘要 ( 930 )

PDF (671KB) ( 442 ) 　　

蒙特卡罗MC方法是核反应堆设计和分析中重要的粒子输运模拟方法。MC方法能够模拟复杂几何形状且计算结果精度高，缺点是需要耗费大量时间进行上亿规模粒子模拟。如何提高蒙特卡罗程序的性能成为大规模蒙特卡罗数值模拟的挑战。基于堆用蒙特卡罗分析程序RMC，先后开展了基于TCMalloc动态内存分配优化、OpenMP线程调度策略优化、vector内存对齐优化和基于HDF5的并行I/O优化等一系列优化手段，对于200万粒子的算例，使其总体性能提高26.45%以上。

基于PCIe的高性能FPGA-GPU-CPU异构编程架构

孙兆鹏, 周宽久

2021, 43(4): 641-651. doi:

摘要 ( 1291 )

PDF (1382KB) ( 850 ) 　　

异构计算作为一种特殊的并行计算方式，能根据计算任务的特点发挥不同计算资源的能力，在提高服务器计算性能、能效比和实时性方面有极大优势，但目前异构计算环境存在编程复杂、可信性无法保证的问题。针对以上问题，提出了一个基于状态变迁矩阵(STM)的编程框架，可以集成GPU和FPGA的资源。通过状态迁移矩阵对CUDA和Vivado的应用程序接口(API)进行集成，自动生成异构计算所需要的标准C代码。通过PCIe总线连接GPU和FPGA设备，从而可以在这些异构计算单元之间进行数据传输，中间无需使用系统CPU内存。并且
通过GPUDirect RDMA实现了FPGA作为主控器的PCIe通信，突破了GPU作为主控器的PCIe通信当中读取操作的短板。
实验表明，相比共享内存的通信方式，
FPGA作为主控器的PCIe通信方式的通信效率提高了1.4倍，
实现的数据速率接近理论带宽的最大值。

一种基于参考模型的GPDSP指令流控自动验证方法

王慧丽, 郭阳

2021, 43(4): 652-661. doi:

摘要 ( 771 )

PDF (1439KB) ( 502 ) 　　

随着科学计算和人工智能算法复杂度的增加，作为硬件设计中的控制中心，指令流控部件的设计面临复杂性和精确性急剧提升的挑战。FT-xDSP是国防科技大学自主研发的一款64位GPDSP处理器，其指令流控部件的设计规模和复杂性大幅增加，使得指令流控部件的验证成为一个突出难题。提出一种基于指令重排参考模型的指令流控自动化验证方法：首先，以指令输入输出关系为主要特征建立流控部件的抽象模型，屏蔽了内部复杂逻辑，在保证分析结果准确性的基础上降低了分析复杂度；其次，通过自动生成带约束的随机测试激励，对参考模型和待测设计结果进行自动化比较分析，在验证代价相当的情况下提升了代码覆盖率和功能覆盖率。实验和实际应用结果表明，该方法能针对指令流控验证中的薄弱点进行定向随机验证，大幅度提升了指令流控部件的验证效率和验证完整性。

基于SIMD的Square Root函数高性能实现与优化

赵永浩, 贾海鹏, 张云泉, 张思佳

2021, 43(4): 662-669. doi:

摘要 ( 581 )

PDF (498KB) ( 451 ) 　　

在计算机图形学、积分计算和神经网络等应用场景中，平方根函数的高性能实现在构建处理器的基础软件生态中起到了十分重要的作用。随着ARM架构处理器得到广泛的使用，研究ARM架构下的函数快速算法实现变得更加关键。当前大量处理器都采用了SIMD架构，所以，研究基于SIMD实现高性能函数计算方法具有重要的研究意义和发展前景。因此，对平方根函数进行了高性能的实现与优化。通过分析IEEE 754标准的浮点数在内存中的存储格式，设计了高效的平方根函数算法；然后通过结合平方根倒数和泰勒公式算法，进一步提高了算法精度；最后通过SIMD优化进一步提升了算法性能。实验结果表明，在满足精度的前提下，相比于libm算法库，实现的平方根函数的，性能提高了约7倍，相比于ARM V8提供的计算平方根的指令在性能上提高了约3倍。

融合文本分布式表示的重复缺陷报告检测

曾杰, 贲可荣, 张献, 徐永士

2021, 43(4): 670-680. doi:

摘要 ( 674 )

PDF (696KB) ( 484 ) 　　

重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复，可降低软件维护成本。为了进一步提高检测的准确率，提出一种融合文本分布式表示的重复缺陷报告检测方法。首先，基于大规模缺陷报告数据库训练Doc2Vec模型并抽取缺陷报告的分布式表示，将不同长度的缺陷报告编码为统一长度的稠密向量。接着，通过比较这些向量来计算不同缺陷报告的相似程度，将其作为一种新特征与重复缺陷报告检测过程常用的其它特征进行融合，并利用机器学习算法训练二元分类模型。在公开的Bugzilla重复缺陷报告数据集上的实验结果表明，相比于代表性方法D_TS，本文方法的F1值平均提升了2%，说明了新特征的有效性。

ARM计算环境下堆芯程序的移植

明平洲, 李治刚, 刘婷, 芦韡, 刘东, 曾辉, 余红星

2021, 43(4): 681-688. doi:

摘要 ( 826 )

PDF (682KB) ( 473 ) 　　

为了论证国产芯片在堆芯数值计算领域的可行性，对多个堆芯程序在飞腾处理器的ARM通用计算环境中进行了移植，涉及堆芯燃料管理软件的扩散原型程序NACK-R、子通道分析程序CORTH、特征线输运程序OpenMOC和堆芯组件程序KYLIN2。移植过程在ARM计算环境中通过合理的程序代码修订，去除对商业函数库的依赖，且在移植过程中对KYLIN2的特征线循环扫描计算过程引入OpenMP多线程并行，论证单结点多个飞腾处理器核心的并行能力。参照对象Intel商用处理器的频率约为飞腾处理器频率的2倍，堆芯程序移植后的串行运行效率与在Intel计算环境中的串行运行效率差异保持在3~4倍，受限于所使用飞腾处理器型号的缓存大小，部分数据量较大例题的性能差异可能更大。KYLIN2完成多线程并行后计算效率接近在Intel处理器上的串行效率，证明单结点多个飞腾处理器核心能够替换部分堆芯数值计算既有的应用场景。移植结果也表明，混合不同处理器的异构设计，能够在计算资源紧张的情况下充分利用国产硬件，提升计算环境的整体利用效率。

一种基于DBSCAN算法的代码包层次重构改进方法

李文昊, 李英梅, 边奕心

2021, 43(4): 689-696. doi:

摘要 ( 624 )

PDF (561KB) ( 438 ) 　　

在包层次的代码重构研究中，为了得到“高内聚、低耦合”的软件结构，层次聚类算法因其简单有效、聚类精度高等特点被认为是一种较好的软件聚类方法。但是，层次聚类算法时间复杂度高，不利于处理较大规模的软件。而基于密度聚类的DBSCAN算法则与之相反，具有较快的聚类速度，但是精度却较低。因此，提出一种基于DBSCAN的软件层次聚类算法，利用DBSCAN算法所产生的类来约束层次聚类算法的聚类空间，该算法可以保持层次聚类算法的精度不变，且它的时间复杂度介于DBSCAN和层次聚类算法之间。实验结果表明，该算法可以有效地对软件进行合理划分，并通过专家评判、模块划分度量指标和算法运行时间对比来表明其比其他常用聚类算法的性能更好。

基于对抗学习和多尺度特征融合的前列腺MR图像分割

陈爱莲, 丁正龙, 詹曙

2021, 43(4): 697-703. doi:

摘要 ( 1019 )

PDF (643KB) ( 555 ) 　　

前列腺MR图像的自动分割已被广泛应用于前列腺癌的诊断和治疗过程中，然而，由于前列腺的形状变化显著且与相邻组织的对比度低，传统的分割方法仍存在精度低、速度慢等缺点。生成对抗网络GAN在计算机视觉任务中展示出了优越的性能，因此提出了一种使用对抗学习的概念来训练分割网络的方法，实现前列腺MR图像端到端的自动分割。模型框架主要由分割网络和判别网络构成，分割网络生成分割预测图，判别网络判断输入来自真实标签还是分割预测。同时，在分割网络中集成了感受野模块RFB来获取和融合深度特征的多尺度信息，提高特征的识别率和鲁棒性，以提升网络的分割性能。在PROMISE12数据集上的验证结果显示，该模型的DSC和HD分别为89.56%和7.65 mm。

基于深度学习和证据理论的表情识别模型

徐其华, 孙波

2021, 43(4): 704-711. doi:

摘要 ( 805 )

PDF (692KB) ( 810 ) 　　

表情识别是在人脸检测基础之上的更进一步研究，是计算机视觉领域的一个重要研究方向。将研究的目标定位于基于微视频的表情自动识别，研究在大数据环境下，如何使用深度学习技术来辅助和促进表情识别技术的发展。针对表情智能识别过程中存在的一些关键性技术难题，设计了一个全自动表情识别模型。该模型结合深度自编码网络和自注意力机制，构建了一个人脸表情特征自动提取子模型，然后结合证据理论对多特征分类结果进行有效融合。实验结果表明，该模型能显著提升表情识别的准确度，具有重要的理论意义和研究价值。

基于路径聚合扩张卷积的图像语义分割方法

李叔敖, 解庆, 马艳春, 刘永坚

2021, 43(4): 712-720. doi:

摘要 ( 466 )

PDF (1085KB) ( 433 ) 　　

基于编码器-解码器的深度全卷积神经网络在图像语义分割中取得了重大的进展，但是深度网络中网络低层定位信息传播到网络高层路径过长，导致解码阶段难以利用低层定位信息来恢复物体边界结构，针对这一问题，提出了一种应用在分割网络解码器部分的路径聚合结构。该结构缩短了分割网络中低层信息到高层信息的传播路径并提供多尺度的上下文语义信息，使得分割网络能产生更为精细的边界分割结果。针对语义分割中常使用的Softmax交叉熵损失函数对外观相似样本区分能力不足的问题，对Softmax交叉熵损失函数进行改造，提出了双向交叉熵损失函数。本文提出的路径聚合扩张卷积网络结合新的损失函数方法在PASCAL VOC2012Aug数据集上获得了更好的效果，将mIoU值从78.77%提升到了80.44%。

基于残差混合扩张卷积的深度编解码人类精子头部分割网络

吕琪贤, 范朝刚, 詹曙

2021, 43(4): 721-728. doi:

摘要 ( 755 )

PDF (881KB) ( 399 ) 　　

精子头部形状是精子形态分析中的一个重要指标，对诊断男性不育十分重要，因此准确高效地分割出精子头部至关重要。基于此，
在残差网络的基础上融合扩张卷积与堆叠残差结构，构建了一个新型编解码分割网络。建立了一个用于分割人类精子头部的数据集，其中包含1 207幅图像，并利用它来训练测试网络。所提出的网络能在多精子、无染色原图中获得优良的分割结果，在验证集上得到了96.06%的Dice系数。实验结果表明，堆叠残差模块和残差混合扩张卷积模块对分割效果有着显著提升作用。此外，本文网络处理的是呈现出精子真实形态的图像，其分割出的精准结果有利于医生临床诊断。

基于多特征融合卷积神经网络的显著性检测

赵应丁, 岳星宇, 杨文姬, 张吉昊, 杨红云,

2021, 43(4): 729-737. doi:

摘要 ( 773 )

PDF (1007KB) ( 497 ) 　　

随着深度学习技术的发展以及卷积神经网络在众多计算机视觉任务中的突出表现，基于卷积神经网络的深度显著性检测方法成为显著性检测领域的主流方法。但是，卷积神经网络受卷积核尺寸的限制，在网络底层只能在较小范围内提取特征，不能很好地检测区域内不显著但全局显著的对象；其次，卷积神经网络通过堆叠卷积层的方式可获得图像的全局信息，但在信息由浅向深传递时，会导致信息遗失，同时堆叠太深也会导致网络难以优化。基于此，提出一种基于多特征融合卷积神经网络的显著性检测方法。使用多个局部特征增强模块和全局上下文建模模块对卷积神经网络进行增强，利用局部特征增强模块增大特征提取范围的同时，采用全局上下文建模获得特征图的全局信息，有效地抑制了区域内显著而全局不显著的物体对显著性检测的干扰；
能够同时提取多尺度局部特征和全局特征进行显著性检测，有效地提升了检测结果的准确性。最后，通过实验对所提方法的有效性进行验证并和其它11种显著性检测方法进行对比，结果表明所提方法能提升显著性检测结果的准确性且优于参与比较的11种方法。

一种基于主属性判定的关联规则挖掘约简算法

熊中敏, 汪博, 陶然, 郑宗生, 陈明,

2021, 43(4): 738-745. doi:

摘要 ( 900 )

PDF (792KB) ( 348 ) 　　

关联规则挖掘是经典的数据挖掘方法，越来越多的企业都把它看作是必不可少的战略分析工具。当前关联规则挖掘方法得到的规则过多，令用户在运用时难以理解，因此研究关联规则集的约简方法具有应用价值。研究了数据库模式中关键字包含的主属性对基于Apriori算法的关联规则挖掘产生的关联规则的影响，即部分函数依赖会导致关联规则挖掘的数据集中冗余信息的频繁出现，并产生没有实际价值的关联规则，识别并消除这样的规则就能实现规则集的约简。求全部主属性如同求所有候选关键字问题都是NP难题，因此提出了一种基于一个候选关键字进行验证的算法来判定主属性，从而完成基于主属性判定的关联规则挖掘约简算法的设计与实现，并在最后的实验中验证了该算法的有效性。

基于组合核函数的径向基过程神经网络及其在示功图诊断中的应用

李晶晶, 许少华

2021, 43(4): 746-752. doi:

摘要 ( 713 )

PDF (620KB) ( 527 ) 　　

针对复杂时间信号动态模式分类问题，提出了一种基于局部核函数与全局核函数组合的径向基过程神经网络(RBFPNN)模型。考虑时间信号过程特征的多样性和复杂性，以及核函数对信号分布形态特征的局部与全局表征能力，通过将具有全局性质的多项式核函数与具有局部性质的高斯核函数进行线性叠加，构成组合核函数，以此建立一种新的径向基过程神经网络，从信息模型上改善RBFPNN对动态样本复杂过程特征的抽取和记忆性质，提高网络对时间信号特征的辨识能力。分析了基于RBFPNN的性质，建立了基于混沌遗传算法CGA的模型参数优化算法。以基于示功图的往复运动机械工作状态诊断为例，实际资料处理结果验证了模型和算法的有效性。

基于深度学习的集群式供应链应急物资需求预测研究

薛红, 徐锐迪, 王圆, 廖智峰, 徐卓然

2021, 43(4): 753-760. doi:

摘要 ( 741 )

PDF (1110KB) ( 540 ) 　　

在突发事件和大数据情景下，建立基于数据流模糊C均值聚类算法的集群式供应链应急物资需求重要度决策算法，有助于辨识集群式供应链子系统应急物资需求的重要程度。针对集群式供应链中各子供应链之间的耦合特性和预测指标的快速变化数据流特征，提出基于长短期记忆网络的集群式供应链应急物资需求动态预测算法，提取集群式供应链多个子系统应急物资需求参数的时序特征，动态地、分布地对互联大系统的应急物资需求不确定性进行系统辨识估计。仿真实验结果表明了基于长短期记忆网络的集群式供应链互联大系统应急物资需求动态预测算法的可行性和精确性。

当期目录

作者中心

审稿中心

在线期刊