计算机工程与科学

2020年第10期目录

2020, 42(10高性能专刊): 0-0. doi:

摘要 ( 212 )

PDF (288KB) ( 305 ) 　　

一种基于NVMeoF存储池的分域共享并发存储架构

李琼, 宋振龙, 袁远, 谢徐超

2020, 42(10高性能专刊): 1711-1719. doi:

摘要 ( 345 )

PDF (992KB) ( 413 ) 　　

E级计算和大数据时代，为了充分利用超级计算机系统的并行计算能力，许多大数据应用程序在高性能计算HPC系统上运行，超级计算机的I/O模式更趋复杂，I/O瓶颈问题日益严峻。当前基于闪存的存储阵列或存储服务器已逐步应用在高性能计算机的并行存储系统中，但传统存储体系结构、I/O协议软件栈和存储网络的较高延迟使得新型存储介质不能发挥性能优势，存储系统依然存在I/O访问延迟高、并发I/O吞吐率和瞬发I/O（Burst I/O）带宽受限的问题。针对上述问题和技术挑战，提出了一种基于非易失存储介质
NVM的分域共享并发存储架构，设计了一种支持NVMeoF网络存储的Burst I/O缓冲存储池NV-BSP，实现了虚拟化存储池资源管理、基于天河高速互连网的NVMeoF网络存储通信等关键技术，具有横向和纵向扩展能力，可有效支持面向特定计算任务的Burst I/O加速和低延迟远程存储访问。基于HPC和大数据应用程序混合运行性能分析模型，提出了一种混合应用程序QoS控制策略。小规模验证系统上的性能测评结果表明：NV-BSP存储池的读写性能可随并发I/O处理线程数良好扩展；与Linux 操作系统自带的MD-RAID相比具有明显的性能优势；相比本地I/O访问，基于天河互连网络的NVMeoF远程存储读写延迟仅增加了59.25 μs和54.03 μs。通过计算与存储分离，NV-BSP 在提供堪比本地存储池性能的同时，提高了系统存储资源动态调配的灵活性和系统可靠性。

面向天河互连网络的可扩展通信框架实现技术

谢旻, 张伟, 周恩强, 董勇

2020, 42(10高性能专刊): 1720-1729. doi:

摘要 ( 281 )

PDF (871KB) ( 392 ) 　　

开源通信框架在编程模型和互连接口之间定义标准化的通信编程接口，提供了独立于互连网络特性的高性能通信操作，提高了编程模型在新型互连网络上的开发效率。通过设计与实现多通道数据传输协议，解决了通信框架在天河互连网络上实现时的性能和扩展性问题。测试数据表明，天河互连网络上的通信框架具有很低的软件层开销，提供了接近于互连硬件设计指标的通信性能，为拓展天河互连网络对各种编程模型和分布式计算框架的高效支持提供了良好的基础。

大规模高性能互连拓扑性能分析

蒋句平, 董德尊, 唐虹, 齐星云, 常俊胜, 庞征斌

2020, 42(10高性能专刊): 1730-1736. doi:

摘要 ( 334 )

PDF (930KB) ( 518 ) 　　

高性能互连网络作为高性能计算机的核心基础设施，拓扑结构是高性能互连网络性能可扩展的关键。针对目前主流高性能拓扑结构进行了介绍，并对比分析了拓扑结构的可扩展性。通过自主研发的大规模互连模拟器对当前主流高性能网络拓扑进行了性能分析，评测了几种大规模拓扑结构在不同通信负载与路由策略下的性能。

一种计算互连融合网络体系结构

陆平静, 赖明澈, 王博超, 常俊胜

2020, 42(10高性能专刊): 1737-1741. doi:

摘要 ( 231 )

PDF (772KB) ( 306 ) 　　

提出一种计算互连融合体系结构FCI，以片内互连形式直接将计算内核和网络接口通过互连总线集成至计算内核中。FCI中设计了具有单周期转发特征的XBAR结构，只需多个输入端口报文之间没有冲突发生便能实现单周期转发操作，适应于各类路由算法与流量负载，对系统中的网络链路层进行了设计，用以实现报文的可靠传输，并在高速串口中设计了一种用于物理编码子层的加扰方法及装置，用于增加码率扰动，以提高信号传输质量并减少信号传输延迟。测试结果显示，相对于传统的经由PCIe相连的互连系统，FCI结构在通信带宽上提升了约30%，而在延迟上则降低了约16.7%，具备高带宽、低延迟等优点，可为实现网络与计算深度融合及高密度互连系统提供切实可行的方案。

面向HPC的高性能微处理器研究进展

王耀华, 郭阳

2020, 42(10高性能专刊): 1742-1748. doi:

摘要 ( 278 )

PDF (510KB) ( 378 ) 　　

高性能计算HPC以其强大的计算能力成为关系国计民生的重要技术。作为高性能计算系统算力源泉的高性能微处理器，更是
当前各国竞相争夺的技术高地，是高性能计算领域优势和实力的决定性技术。基于这一背景，以NVIDIA、Intel和AMD等
主流处理器厂商面向HPC的高性能处理器架构为主要目标，从计算资源的组织方式、存储子系统设计和核间互连技术等3个关键方面展开了研究与分析，在此基础上对当前高性能微处理器的主流技术进行了总结和展望。本文的分析和结论能够为未来面向HPC的微处理器研究提供有益的参考。

支持多优先级多输出通道的数据队列调度方法和硬件实现

徐金波, 常俊胜, 李琰

2020, 42(10高性能专刊): 1749-1756. doi:

摘要 ( 221 )

PDF (662KB) ( 353 ) 　　

提出了一种支持多优先级多输出通道的数据队列调度方法，以满足专用集成电路ASIC芯片内多组输入数据对多个输出通道资源进行请求的需求。首先，所提出的方法适用范围广，既可以通过随机模式（Random）进行调度以达到负载均衡，也可以通过配置不同优先级以区分服务质量QoS。对于随机模式，处于空闲状态的多个输出通道轮流接收输入数据；对于区分服务质量模式，所有输入源、输出通道被划分为不同优先级，使某组输出通道只接收对应优先级的输入源的数据。其次，该方法具有硬件实现代价低的优势，这得益于多个输出通道共享同一个仲裁器对输入数据进行仲裁。基于该方法，在天河超级计算机系统的网络接口芯片中对软硬件接口数据队列的调度进行了优化，并在验证环境中进行了测试。当前测试结果显示，所提出的方法与传统的单输出队列调度器相比，仅增加3‰～2%的调度时间代价，仅增加1.5%左右的硬件资源代价，但在处理直接内存读取事务时却实现了2倍左右的速度提升；同时，配置为QoS模式时高优先级线程的执行时间仅为低优先级执行时间的1/3左右，且是灵活可配置的。

纠缠光子源的性能模型与实验实现

王冬阳, 吴俊杰, 刘英文, 杨学军

2020, 42(10高性能专刊): 1757-1764. doi:

摘要 ( 231 )

PDF (790KB) ( 393 ) 　　

量子计算是高性能计算的前沿研究方向，光子物理体系是量子计算的重要实现途径之一。在光量子计算系统中，纠缠光子源用于生成编码量子信息的光子，其性能直接影响量子比特的数量与质量。系统分析了最常用的纠缠光子源技术——基于自发参量下转换的纠缠光子源，研究了基于I型自发参量下转换纠缠多光子源的纯度、亮度的性能模型，推导出由纠缠双光子获得纠缠多光子的关键条件。同时，利用偏硼酸钡晶体器件设计实现了I型自发参量下转换纠缠双光子源，基本验证了上述性能模型。本文模型与实验结果，为在光量子计算系统中实现更多量子比特提供了理论和技术支撑。

BeeGFS并行文件系统性能优化技术研究

宋振龙, 李小芳, 李琼, 谢徐超, 魏登萍, 董勇, 王睿伯

2020, 42(10高性能专刊): 1765-1773. doi:

摘要 ( 697 )

PDF (889KB) ( 516 ) 　　

大数据和人工智能时代，超级计算中心或数据中心的存储需求从PB级向Exabyte级扩展，许多大数据和智能应用程序在高性能计算（HPC）系统上运行，新兴的深度学习应用程序具有批量小文件随机输入特点，使HPC系统的I/O模式更趋复杂，存储管理和I/O瓶颈问题日益突出。并行文件系统是管理超级计算机数据存储的有效手段，但传统并行文件系统主要面向高带宽需求的科学计算任务，难以满足智能应用程序存储需求。针对上述问题，以新兴的BeeGFS文件系统为基础，研究并行文件系统性能优化的关键技术。设计实现了基于键值存储的元数据管理模块以优化元数据IOPS，基于异步I/O和多线程技术的并行I/O处理模型以提升I/O处理并发度，并采用多轨通信机制以提高网络通信带宽。构建了IO500性能评测环境，在相同的配置环境下，I/O带宽和元数据2类基准测试结果表明，改进后的并行文件系统在元数据、数据读写性能上大幅提升，IO500测分是原有系统的2倍以上。

百亿亿次级系统进程管理接口综述

张昆, 张伟, 卢凯, 董勇, 戴屹钦

2020, 42(10高性能专刊): 1774-1783. doi:

摘要 ( 165 )

PDF (566KB) ( 210 ) 　　

高性能计算机不断发展，系统规模日益增加，系统内包含的计算结点数、处理器核数扩展到新的水平。在超大规模系统中，并行应用程序的启动时间成为限制系统运行效率、降低系统易用性的一个重要因素。在并行应用启动阶段，利用进程管理接口为进程部署通信通道，供进程后续通信使用。在百亿亿次级规模系统中，传统进程管理接口无法在启动时快速获得通信信息，导致启动时间过长，系统性能下降。首先介绍进程管理接口在并行程序启动过程中的作用，着重介绍面向百亿亿次级系统的进程管理接口PMIx，而后对比论述PMIx对于改进大规模并行程序启动的作用，分析PMIx在提升系统性能上做出的优化，以及未来发展方向。

一种操作系统内存初始化优化算法

何森, 迟万庆

2020, 42(10高性能专刊): 1784-1790. doi:

摘要 ( 178 )

PDF (567KB) ( 259 ) 　　

在操作系统内核的启动过程中，对存在较大内存空洞的NUMA结点内存进行初始化时会产生明显的时间损耗。尤其是在频率偏低的仿真平台上启动时，其影响更为显著，导致时间损耗进一步放大。为解决这一问题，提出了一种NUMA结点内存初始化优化算法，
该算法能够在NUMA结点内存初始化时识别并跳过内存空洞，实现高效的内存初始化。将该优化算法与现行内核初始化算法进行对比实验，结果表明该优化算法显著提升了对存在内存巨大空洞的NUMA结点内存的初始化速度，进而提高了Linux系统内核的启动速度。

以编译为导向的Matrix-DSP程序分析与优化

荀长庆, 陈照云, 文梅, 孙海燕, 马奕民

2020, 42(10高性能专刊): 1791-1800. doi:

摘要 ( 228 )

PDF (1565KB) ( 391 ) 　　

数字信号处理器（DSP）在图像处理、自动化控制、信号处理等多个领域具有广泛应用。自主研发的Matrix DSP采用了典型的单指令多数据SIMD+超长指令字VLIW的向量化架构,因此面向该架构如何实现高效的向量化编程与优化是一项重要挑战。基于Matrix DSP的体系结构特点，以编译器性能为导向，对内核级代码常用的分析优化手段进行梳理和总结，并结合一个通用矩阵乘的例子进行展示，其执行性能可最高提升1个数量级。最后，从编译器优化和程序员高效编程的角度提出了一些后续的思考与讨论。

面向大规模集群的自动化监控系统

杨杰, 曾凌波, 彭运勇, 蒋迁谦, 杜量

2020, 42(10高性能专刊): 1801-1806. doi:

摘要 ( 227 )

PDF (694KB) ( 333 ) 　　

大规模集群系统结点数量越来越多、内部结构越来越复杂，集群可用性、稳定性的压力也越来越大，为了解决大规模集群可用性、稳定性的问题以及系统管理和系统运维难度大的问题，实现了一套大规模集群自动化监控系统。该自动化监控系统部署在大规模集群系统上，通过收集集群各组件的监控数据，利用微服务的方式处理监控数据，实现对集群各组件的实时监控。

“魔方-3”高性能计算机运维管理平台设计与实现

赵奇奇

2020, 42(10高性能专刊): 1807-1814. doi:

摘要 ( 192 )

PDF (2587KB) ( 217 ) 　　

随着科技的进步，高性能计算机作为重要的科研基础设施为各行各业的发展提供了有力的支撑保障。确保高性能计算机稳定高效的运行是系统管理员的希冀也是职责所在。主要介绍了以“魔方-3”高性能计算机为对象开发的运维管理平台，包括平台架构设计、底层数据采集接口和方式，以及该平台实现的系统监控、自动巡检、数据分析等多种功能。借助这个平台系统管理员能直观清晰地了解计算机运行状况，及时发现并处置故障，通过多角度的数据挖掘分析影响当前运行效率的瓶颈所在，为后续软硬件优化升级提供科学的决策依据。

天河超级计算机上超大规模高精度计算流体力学并行计算研究进展

徐传福, 车永刚, 李大力, 王勇献, 王正华

2020, 42(10高性能专刊): 1815-1826. doi:

摘要 ( 584 )

PDF (1454KB) ( 525 ) 　　

高性能计算（HPC）技术的迅猛发展为大规模复杂计算流体力学（CFD）应用提供了重要支撑。近年来，“通用处理器+众核加速器”的异构体系结构已成为研制超大规模高性能计算机的重要技术途径之一。异构高性能计算机不仅包含海量的异构处理器核，同时具有异构存储层次、通信方式和编程环境，极大增加了CFD等并行应用开发、优化的难度。国防科技大学是我国高性能计算机系统研制与应用开发的基地，长期以来，学校CFD应用软件团队依托天河/银河系列超级计算机开展了超大规模复杂CFD并行计算和性能优化研究，突破了异构协同并行计算等一系列关键技术，初步实现了HPC与CFD的深度融合，有力支撑了我国几套重要的In-house CFD软件在天河/银河系列超级计算机上的高效超大规模并行应用。归纳总结了天河超级计算机上超大规模高精度CFD并行计算研究进展，并对未来E级超级计算机上CFD并行应用开发进行了分析展望。

基于多尺度卷积神经网络的胶囊内窥镜出血点快速识别

谢雪娇, 陆枫, 李书展, 周到

2020, 42(10高性能专刊): 1827-1832. doi:

摘要 ( 188 )

PDF (774KB) ( 304 ) 　　

无线胶囊内窥镜技术WCE已广泛应用于胃肠道疾病辨识中，然而随之产生的海量影像学数据为医生阅片带来了沉重负担。针对WCE图像出血点自动识别中存在的颜色和纹理特征不明显、易与正常器官混淆，细节特征模糊与病灶尺寸大小不一，以及含有较多杂质等问题，提出残差多尺度全卷积神经网络对含出血点的WCE图像进行快速分类辨识。通过引入残差学习网络中跳跃连接以及Inception网络中多尺度卷积核的思想，使简洁的网络结构能够有效提取图像的各类病灶细节特征。从实验结果看，网络的灵敏度达到98.05%，特异度达到97.67%，准确率达到97.84%，优于ResNet50和Inception-v4网络，识别效率高，且收敛速度更快，计算性能有所提升。总之，该网络兼顾出血点识别效率和性能，实用性较强。

CCFD重叠网格并行算法设计和优化

刘夏真, 袁武, 马文鹏, 胡晓东, 陆忠华, 张鉴

2020, 42(10高性能专刊): 1833-1841. doi:

摘要 ( 226 )

PDF (4022KB) ( 222 ) 　　

介绍了并行计算流体力学软件CCFD在重叠网格方法上的高效并行实现，包括：设计了具有局部数据特性的新型洞映射模型，以及适用于该模型的单元属性标识方法；研究了适合分布式环境的隐式洞面优化方法，提出了一种网格单元判据的组合参数；设计了兼顾计算量和通信量的两级负载平衡模型，并考虑了重叠区插值对有向图权重计算的影响；设计了基于网格块的通信模式，对通信数据结构和收发过程进行了调优。数值模拟结果表明，CCFD重叠网格方法具有良好的并行效率和扩展性。

“神威·太湖之光”上Tend_lin应用的并行优化研究

姜尚志, 唐生林, 高希然, 花嵘, 陈莉, 刘颖

2020, 42(10高性能专刊): 1842-1851. doi:

摘要 ( 189 )

PDF (764KB) ( 260 ) 　　

大气环流模式是研究全球气候变化及其成因的主要工具之一，在大规模异构众核的并行计算系统上高效地并行运行复杂的大气环流模式是一个具有挑战性的课题。Tend_lin是中国科学院大气物理研究所研发的第4代大气环流模式IAP AGCM-4中动力框架的热点过程，具有计算/通信比低的特点。面向国产大规模异构众核超算平台“神威·太湖之光”，用OpenACC和AceMesh 2种不同的并行编程接口对Tend_lin进行优化。重点介绍了如何用数据驱动的任务并行编程接口AceMesh对其进行加速，介绍了计算循环和通信代码的任务并行方法，讨论了如何放松通信资源共享，对比了单层任务图和嵌套任务图下的任务映射等优化问题。测试结果表明，相比OpenACC，AceMesh在16～1 024进程的不同并行配置下获得了平均2倍左右的性能提升，最后详细分析了性能收益的来源。

云化与业务流技术支撑的新一代超级计算应用平台

康波, 马庆珍, 司道军, 孟祥飞

2020, 42(10高性能专刊): 1852-1858. doi:

摘要 ( 165 )

PDF (1543KB) ( 207 ) 　　

超级计算已从单纯提供硬件算力服务开始转变为综合应用服务支撑，其中完备性、易用性、专业性成为产业服务平台的突出特点和要求。通过云化处理，将原本部署在超级计算机上的算法、软件工具推向云平台，并以交互的方式提供服务；通过业务流化，实现以功能为模块的工作流程自由化定制，满足生态环境的构建。石油地震数据处理是我国超级计算重要的应用领域，通过插件机制、嵌套式工作流、统一用户视图等技术细节，形成了面向该领域的专业服务平台。以石油物探平台服务实践为例，介绍了云化和业务流化在行业中的实际应用成效。实践表明，云化与业务流化支撑的行业应用服务平台模式是未来超算服务的重要方向，也是超算深入产业服务的重要参考。

基于多核FPGA的HMAC-SHA1口令恢复

冯峰, 周清雷, 李斌

2020, 42(10高性能专刊): 1859-1868. doi:

摘要 ( 166 )

PDF (1047KB) ( 246 ) 　　

HMAC-SHA1是广泛使用的用户密码认证机制，针对HMAC-SHA1进行高效的口令恢复具有重要意义。在口令恢复方面，FPGA较传统的CPU和GPU平台更具有优势，因此，基于多核FPGA对HMAC-SHA1进行口令恢复。对HMAC-SHA1口令处理算法进行深入分析，通过流水线、缩短关键路径的方式以及引入保留进位加法器CSA对核心运算SHA1进行实现与优化，基于全流水线和状态机模式实现HMAC-SHA1口令处理算子，最终设计并实现了口令恢复架构。实验结果表明，所实现的SHA1吞吐量达245.76 Gbps，单板卡四核FPGA硬件平台上的口令恢复速度达到了CPU平台上的72倍，GPU平台上的2.6倍。

移动边缘计算中多约束下的任务卸载和资源分配算法

童钊, 叶锋, 刘碧篮, 邓小妹, 梅晶, 刘宏

2020, 42(10高性能专刊): 1869-1879. doi:

摘要 ( 271 )

PDF (3027KB) ( 438 ) 　　

随着物联网和车载网的普及与应用，近用户端(数据源端)的数据呈现爆炸式的增长。为了有效地处理这些快速增长的数据，移动边缘计算作为一种新的计算模式应运而生。移动边缘计算是指将云中心的部分资源下沉到网络边缘，使得数据能够在网络边缘被处理。如何高效地卸载任务以及合理地分配资源，是目前移动边缘计算研究领域中的一个热点问题；然而现有的研究工作很少考虑到边缘数据和计算节点的安全性，只有保证数据与信息的安全，移动边缘计算才能全面发展。因此，基于数据的安全性，结合深度强化学习在多约束条件下提出了一种任务卸载和资源分配算法。实验结果表明，该任务卸载算法与几种经典算法相比，有效地提高了任务卸载成功率、任务成功执行率，降低了本地端能耗，更好地满足了用户的QoS需求。

多重介质油藏数值模拟异构并行算法研究

陈元科, 张冬梅, 崔书岳, 张宇洋

2020, 42(10高性能专刊): 1880-1886. doi:

摘要 ( 221 )

PDF (680KB) ( 314 ) 　　

缝洞型油藏具有各向异性、介质尺度变化范围广及流动机理复杂等特点，因此数值模拟计算量大、计算过程复杂。基于异构并行架构建立分布式并行雅各比矩阵组装和GPU并行线性方程组求解，实现CPU-GPU异构并行的多重介质模型。对塔河油田不同规模的3个单元的实验结果表明，提出的异构并行算法具有较好的加速效果，随着CPU核数增加并行矩阵组装呈现出较好的可扩展性，数值模拟结果和串行程序模拟结果基本一致。

混合可重构的DES算核高效能口令恢复方案

李斌, 周清雷, 斯雪明, 冯峰

2020, 42(10高性能专刊): 1887-1896. doi:

摘要 ( 135 )

PDF (1050KB) ( 263 ) 　　

密码算法是网络安全的关键技术，它的高速实现与破译，是电子信息侦查、算法安全性验证的重要手段。针对DES、DES Crypt和3DES算法的快速破解，提出了一种混合可重构的DES算核高效能口令恢复方案。通过对DES算法特征的分析，结合算核的设计思想，以循环控制和全流水架构，分别实现了串行和并行2种DES算核。其次，对这2种算核进行重构以适配各种应用，并布局多个算子协同工作，完成应用的并行计算。最后，利用策略缩小DES口令搜索空间，并设计了2种高速口令生成算法，进一步加快DES的恢复速度。实验结果表明，相比于CPU、GPU实现，该方案在计算速度上分别提高了2 35314倍、14.19倍，能效比分别提高了584.96倍、11.02倍，最快可在几秒内恢复原始口令，其效率有了明显提高。

面向科学工程计算的通用网格生成软件系统研究

高翔, 张翔, 徐传福, 刘杰, 龚春叶

2020, 42(10高性能专刊): 1897-1904. doi:

摘要 ( 266 )

PDF (729KB) ( 413 ) 　　

随着高性能计算技术的迅猛发展，科学工程计算在航空、船舶和桥梁等工程设计领域发挥着越来越重要的作用。作为科学工程计算的前置输入，计算网格的生成是影响仿真周期和结果的重要因素之一，因此研制通用网格生成软件对推动科学工程计算领域的发展具有重大实用价值。首先介绍了国内外网格生成软件的发展现状，并针对自主通用网格生成软件在国内市场的严重空缺，总结了自主研制网格生成软件YHGRID拟采用的技术方案和需要突破的若干关键技术，最后探讨了基于国产高性能计算平台，研发自主可控通用网格生成软件所面临的挑战及其未来发展方向。

GPU上典型存储器难散列函数的优化

陈虎, 韩建国

2020, 42(10高性能专刊): 1905-1912. doi:

摘要 ( 159 )

PDF (730KB) ( 212 ) 　　

由于占用存储器容量大和访存频繁的特点，抗ASIC攻击的存储器难散列函数有可能成为下一代口令散列函数的基础。针对存储器难散列函数的口令恢复问题，基于GPU体系结构的特点提出了性能优化方法：一方面分析和比较了交织存储和顺序存储2种方法的存储器带宽利用率，另一方面使用多个线程完成一个散列函数实例计算，并通过warp混洗指令提升线程间数据交换的性能。基于4线程顺序存储方法，在GPU上优化实现了Scrypt和Argon2d 2种存储器难散列函数，其中Scrypt的性能达到了hashcat软件实现性能的2.03倍。与此同时，还分析了存储器难散列函数中存储器容量增加对性能的影响，指出可执行的线程数减少是影响GPU上存储器难散列函数性能的主要原因。

当期目录

作者中心

审稿中心

在线期刊