计算机工程与科学

2021年第1期目录

2021, 43(01): 0-0. doi:

摘要 ( 170 )

PDF (284KB) ( 198 ) 　　

面向飞腾处理器的高精度求和与点乘算法实现和优化

黄春, 姜浩, 谷同祥, 齐进, 刘文超

2021, 43(01): 1-8. doi:

摘要 ( 385 )

PDF (786KB) ( 362 ) 　　

在大规模和长时程数值计算中，浮点运算的舍入误差的累积效应可能导致数值结果不可信。求和与点乘是浮点数值计算中最为基础的运算，在大规模科学计算过程中被频繁调用，其数值结果精度至关重要。面向国产飞腾处理器，基于OpenBLAS，采用无误差变换技术设计了高效的汇编内核函数，实现并优化了高精度的求和与点乘算法。数值实验显示，该高精度算法的数值结果精度同原始算法在双倍工作精度下得到的数值结果精度相同，验证了本文算法的有效性；本文算法在单线程情况下运行时间分别是原始算法运行时间的1.57倍和1.76倍，在保证精度提升的同时效率没有明显的降低；在多线程情况下，同原始算法具有近乎相同的运行时间，体现了算法的高效性。理论误差分析进一步表明了本文算法的可靠性。

数据中心功耗削峰电池的可用性分析

路煜, 张路, 侯小凤, 郑文立, 李超

2021, 43(01): 9-16. doi:

摘要 ( 171 )

PDF (843KB) ( 227 ) 　　

研究表明，数据中心后备电池在削峰方面展现出了很大的潜力。使用电池进行削峰，可以使数据中心的电能使用效率大幅提升，从而节约大量的数据中心电力基础设施建设费用。但是，由于削峰会加速电池老化，在一个数据中心的寿命周期内往往需要更换数次电池，这使得电池费用成为数据中心成本的重要组成部分，在更为先进的分布式备电系统下电池成本所占比例更大。所以，如何更经济地使用电池成为节约成本的关键性问题。提出了一种预测电池可用性的收益模型，可以评价传统意义上的老化电池是否还具有实用价值，以及平衡老化电池使用中的性能降低和备电可靠性；并提出了一种优化的电池控制方式，实现了数据中心备电成本的降低。

量子线路模拟器QuEST在多GPU平台上的性能优化

张亮, 常旭, 秦志楷, 沈立

2021, 43(01): 17-23. doi:

摘要 ( 362 )

PDF (640KB) ( 298 ) 　　

在当前量子计算的研究中，量子线路模拟器作为重要的研究工具，一直受到研究者们的高度重视。QuEST是一款开源的通用量子线路模拟器，能在单个CPU结点、多个CPU结点和单个GPU等多种测试平台上灵活运行。量子线路模拟固有的并行性使其非常适合在GPU上运行，并能获得较大的性能加速。但是其缺点在于所消耗的内存空间巨大，单个GPU受显存容量限制，无法模拟具有更多量子位的量子系统。设计并实现了多GPU版本的QuEST模拟器，解决了单个GPU显存不足的问题，能够使用多个GPU模拟更多的量子位。而且，与单CPU版本相比可获得7~9倍的性能加速，与多CPU版本相比可获得3倍的性能加速。

MobileNetV2 神经网络处理器的设计方案比较

陈泳豪, 萧嘉乐, 粟涛

2021, 43(01): 24-32. doi:

摘要 ( 292 )

PDF (1146KB) ( 296 ) 　　

针对MobileNetV2的瓶颈模块，进行了专用处理器芯片的设计方案研究；在卷积层融合模式和可配置方块结构的基础上，针对瓶颈模块卷积提出了一种能够动态分配计算力的流水作业结构；然后设计了一个对应的分析框架，提出了一个设计空间，并采用软件模拟器遍历比较了此空间内各种方案的性能，分析得出了最优参数选择的规律；通过硬件行为仿真验证了结论的有效性。该研究可以帮助
系统芯片设计者根据自身的资源限制和性能需求选择或者设计合适的MobileNetV2处理器IP设计方案，还为处理器自动设计提供了一种思路。

FD-LSTM:基于大规模系统日志的故障分析模型

方姣丽, 左克, 黄春, 刘杰, 李胜国, 卢凯

2021, 43(01): 33-41. doi:

摘要 ( 343 )

PDF (1079KB) ( 360 ) 　　

可靠性研究是高性能计算领域的经典问题，随着制程技术与集成工艺的不断发展，当前全系统规模呈指数级快速增长，给可靠性研究尤其是故障分析带来巨大挑战。收集了自主高性能计算系统投产后工作故障日志信息203 510 247条，时间自2016年1月28日至2016年12月6日。首先使用K-Means聚类方法对故障进行分类，并分析故障分布特征。接着基于聚类结果设计基于时序的故障分析模型FD-LSTM，使用结构化日志训练后，预测不同故障类型的发生时间和空间，结果表明所提出的FD-LSTM 预测模型准确率可达80.56%。本文研究表明，基于日志信息的时序模型FD-LSTM在时间预测和空间预测方面，较之前传统的故障分析模型，在提高故障分析准确度、加强机器运维高效性，乃至增进全系统协同设计合理化等方面都具有现实的指导意义。

面向混合异构架构的模型并行训练优化方法

高开, 郭振华, 陈永芳, 王丽, 赵雅倩, 赵坤

2021, 43(01): 42-48. doi:

摘要 ( 227 )

PDF (1092KB) ( 388 ) 　　

随着混合异构平台的发展，出现了类型不一的加速设备，如何在混合异构平台中充分利用这些不同类型的设备，以及如何在多个计算设备之间部署深度学习模型，而且训练大型和复杂模型的重要性不断提高。数据并行（DP）是应用最广泛的并行化策略，但是如果数据并行训练中的设备数量不断增加，设备之间的通信开销就会成为瓶颈。此外，每个步骤因设备性能差异处理的批总量不同会导致精度损失，即需要更长的训练周期以收敛到期望的精度。这些因素会影响整体训练时间，并且会影响某些设备的运行效率。除了数据并行（DP），每个训练步骤都可以通过模型并行（MP）来加速。提出了一种适合混合异构平台的模型并行训练优化算法。首先，为解决混合异构平台中设备性能分布不均问题，提出了层级并行和通道并行混合的模型并行划分策略，同时通过合并一些性能偏低的设备来减少流水线的长度和缓解通信压力。然后为了优化设备间的流水效果，通过分析流水线建立时间占比和设备性能利用率对整体训练时间的影响，提出了一种可以使两者达到均衡状态的微批次划分方法。实验表明，通过本文方法优化之后的模型并行流水训练算法比传统的模型并行算法具有更好的加速比，在单一类型设备的异构平台上的训练性能加速比提升4%左右，在混合异构平台的训练性能加速比要比没有使用优化方法之前提升7%左右。

Intel Cascade Lake架构CPU SPEC CPU2017评测

杜琦, 黄卉, 龚盛, 刘新娃, 黄春

2021, 43(01): 49-57. doi:

摘要 ( 497 )

PDF (1784KB) ( 260 ) 　　

SPEC CPU2017基准包中包含SPEC的下一代行业标准，是目前CPU性能评测的客观和可信的基准程序之一。采用SPEC CPU2017对Intel Cascade Lake架构的Intel Xeon Gold 6252N型号CPU做了不同内存频率、不同副本数、打开/关闭Turbo的组合测试，总结了不同应用程序在不同配置组合中的性能表现。同时，还对比测试了Intel Ivy Bridge架构的Intel Xeon E5-2692 v2型号CPU和Intel Haswell架构的Intel Xeon E5-2620 v3型号CPU，通过引入计算访存跑分比PBR的概念，分析了3种架构的硬件功能部件的增加对应用程序的性能影响。

YH-ACT：热工流体力学并行应用程序

刘杰, 龚春叶, 杨博, 郭晓威, 甘新标, 李胜国, 李超, 陈旭光, 肖调杰, 穆利安, 宋敏, 赵冬勇, 鞠羽中

2021, 43(01): 58-69. doi:

摘要 ( 329 )

PDF (1104KB) ( 335 ) 　　

商业CFD程序已广泛应用于反应堆的热工水力模拟，但不能完全满足反应堆的应用需求；开源CFD程序有部分应用，但与商业CFD程序相比，在物理模型全面性、计算精度、计算效率及易用性等方面仍存在差距。为更好地满足局部精细热工水力分析的需求，需要更全面的物理模型、较高的计算精度和较好的并行计算效率，因此有必要开发自主热工CFD程序。详细描述了热工流体力学并行应用程序YH-ACT的设计、实现方案以及测试结果。选取3个典型案例，通过与典型商业软件Fluent计算结果进行对比验证软件正确性，
程序并行计算规模达到400个结点共9 600个进程，稳态计算加速比为111.7，并行效率为27.9%，瞬态计算加速比为37.2，并行效率为9.3%。

无线数据中心网络：进展、挑战和展望

韩彪, 王韬, 王宝生

2021, 43(01): 70-81. doi:

摘要 ( 288 )

PDF (810KB) ( 341 ) 　　

随着动态数据流量的迅速增长，庞杂的有线数据中心网络架构给网络扩张、能耗管理和运营维护等方面均带来了巨大的挑战。高速无线技术具有高带宽、动态连接且灵活可控的特征优势，成为一种潜在的数据中心组网解决方案，可以缓解数据中心长期存在的流量拥塞热点问题，减少部署和维护光缆所花费的时间、精力和成本。首先介绍了当前数据中心网络架构的发展趋势，分析比较了毫米波、太赫兹和自由空间光作为无线数据中心网络候选高速无线技术的优缺点。然后深入讨论了当前典型的无线数据中心网络架构，阐述了无线数据中心网络设计和部署面临的挑战，并对其未来发展方向进行了展望。

一种大流量报文HMAC-SM3认证实时加速引擎

李丹枫, 王飞, 赵国鸿

2021, 43(01): 82-88. doi:

摘要 ( 316 )

PDF (995KB) ( 292 ) 　　

SM3密码杂凑算法是我国自主研发的商用密码算法，自主安全性高。目前缺乏将SM3应用到自主网络报文验证的相关研究。核心网络流量大、流认证密钥维护量大、要求延迟低，报文认证功能需要高性能引擎支撑。首次给出了面向大流量网络报文的HMAC-SM3实时加速引擎设计方案，提出了基于存储地址的报文-密钥对快速存储匹配技术和多报文乱序哈希下的有序输出架构，并对SM3算法的64轮轮计算在FPGA上实现流水化，能够同时计算64条报文-密钥对。本方案最高可达到172.41 MHz时钟频率和65.18 Gb/s的平均吞吐量，相同实验条件下是现有串行HMAC-SM3吞吐量的34.86倍。

一类三重或四重线性码的构造

薛文芳, 王维琼, 李亚伟

2021, 43(01): 89-94. doi:

摘要 ( 188 )

PDF (373KB) ( 233 ) 　　

低重线性码在秘密共享方案、认证码、结合方案及强正则图的构造中有重要的应用。借助布尔函数构造出了一类二元三重或四重线性码，应用有限域上的特征和理论与布尔函数的Walsh谱确定了这类码的参数及重量分布。文中得到的三重码可用来构造秘密共享方案和结合方案，且所构造出的线性码的对偶码均为关于Sphere-packing界的最优码或几乎最优码。

一种基于注意力机制的小目标检测深度学习模型

吴湘宁, 贺鹏, 邓中港, 李佳琪, 王稳, 陈苗

2021, 43(01): 95-104. doi:

摘要 ( 1126 )

PDF (1413KB) ( 631 ) 　　

小目标检测用来识别图像中小像素尺寸目标。传统目标识别算法泛化性差，而通用的深度卷积神经网络算法容易丢失小目标的特征，对小目标识别的效果不甚理想。针对以上问题，提出了一种基于注意力机制的小目标检测深度学习模型AM-R-CNN，该模型在ResNet101主干网络和候选区域生成网络中使用了通道域注意力和空间域注意力，通道域注意力模块实现了通道维度上的特征加权标定，空间域注意力模块实现了空间维度上的特征聚焦，从而提升了小目标的捕获效果。此外，模型使用数据增强技术和多尺度特征融合技术，保证了小目标特征提取的有效性。在遥感影像数据集上的识别船只实验表明，注意力模块可带来小目标检测的性能提升。

基于可变形卷积神经网络的人体动作识别

王雪娇, 智敏

2021, 43(01): 105-111. doi:

摘要 ( 283 )

PDF (996KB) ( 324 ) 　　

针对复杂场景中人体动作识别准确率不高的问题，构建了一种基于可变形卷积网络（DCN）与可变形部件模型（DPM）融合改进的人体动作识别系统。首先将DPM的部件滤波器由5个增加到8个，并结合分支定界算法共同将准确率提高约11个百分点，速度提高3倍左右；其次利用DCN根据人体动作进行感兴趣点采样；然后将改进的DPM与DCN在可变形池化前进行融合；最后通过全连接层对输入数据进行动作的识别。实验结果表明，此系统能够在人体动作数据集上更快、更准确地得到识别结果。

基于深度学习的单幅图像超分辨率重建综述

李彬, 喻夏琼, 王平, 傅瑞罡, 张虹

2021, 43(01): 112-124. doi:

摘要 ( 548 )

PDF (885KB) ( 533 ) 　　

单幅图像超分辨率SISR重建指从单幅低分辨率图像恢复出高分辨率图像。深度学习方法越来越多地用于图像超分辨重建领域,由于深度网络模型可以自主学习低分辨率图像到高分辨率图像之间的映射关系，与传统方法相比在该领域展现出了更好的重建效果，因而
基于深度学习的方法已经成为目前图像超分辨率重建领域的主流方向。围绕现有的超分辨深度网络模型在重建方式、结构组成和损失函数方面展开的探索进行了综合论述，通过比较不同模型之间存在的异同点，分析了不同的模型构建方法存在的优缺点及适应的应用场景，同时比较不同网络模型在主流测试数据集上的重建效果，并对该领域的未来研究方向进行了展望。

基于无监督生成对抗网络的人脸素描图像真实化

陈金龙, 刘雄飞, 詹曙

2021, 43(01): 125-133. doi:

摘要 ( 252 )

PDF (791KB) ( 260 ) 　　

对于人脸识别验证的研究带动了执法机构和数字娱乐行业将素描转化为真实人脸图像的需求和兴趣。到目前为止，由于网络训练阶段缺乏配对的数据，加上素描与真实照片之间存在着明显的模态差异，现有的方法仍然存在着不可解决的局限性。利用跨域语义一致性损失使输入和输出保持相同的语义信息，并用感知损失替换像素级的循环一致性损失以生成高分辨率图像。将PGGAN的生成器与生成对抗网络的损失函数一起训练以生成目标域真实图像，循环一致性损失则驱动同域图像保持一致。基于2个开源数据集的实验说明了所提模型在主观评价和客观标准上的有效性。

信息传递增强的神经机器翻译

史小静, 宁秋怡, 季佰军, 段湘煜

2021, 43(01): 134-141. doi:

摘要 ( 194 )

PDF (710KB) ( 231 ) 　　

神经机器翻译领域中多层神经网络结构能够显著提升翻译效果，但是多层神经网络结构存在信息传递的退化问题。为了缓解这一问题，提出了层间和子层间信息融合传递增强的方法，增强多层神经网络的层与层之间信息传递的能力。通过引入“保留门”机制来控制融合信息的传递权重，将融合信息与当前层的输出信息连接共同作为下一层的输入，使得信息传递更加充分。在目前最先进的多层神经网络Transformer上进行相关的实验，在中英和德英翻译任务上的实验结果表明，该信息传递增强方法相比于基线系统，BLEU得分分别提高了0.66和0.42。

基于遗传算法的动态轨迹匿名算法

贾俊杰, 秦海涛

2021, 43(01): 142-150. doi:

摘要 ( 224 )

PDF (927KB) ( 274 ) 　　

现有的轨迹隐私保护技术大多是对移动对象的静态轨迹数据进行保护，却忽略了移动对象动态轨迹依然存在隐私泄露的风险。针对此问题，提出基于遗传算法的动态轨迹匿名算法。利用遗传算法搜索全局最优解的特性，在移动对象当前时间段内的历史轨迹中建立轨迹行为模式，通过轨迹行为模式预测移动对象的轨迹，根据移动对象新增的预测轨迹不断更新轨迹行为模式，使得轨迹预测的准确性更高。对于新增的预测轨迹采用轨迹K-匿名技术进行匿名轨迹生成，以达到保护移动对象个体隐私信息的目的。实验表明，与现有的轨迹匿名算法相比，所提算法在保护轨迹隐私的同时进一步提高了轨迹数据质量。

基于社会立场建模的网络犯罪预警研究

魏墨济, 赵燕清, 朱世伟, 李晨

2021, 43(01): 151-160. doi:

摘要 ( 236 )

PDF (1345KB) ( 287 ) 　　

网络空间已成为安全防控“第二战场”，如何在新型战场中为网络犯罪预警提供技术支持已成为当前安全工作的重要需求。在分析涉犯罪网络文本特征的基础上，提出基于社会立场的建模方法。首先，基于领域专家破案经验，抽取知识构建顶层本体，并按照警种扩展顶层本体构建领域本体；然后，依据警种所关注主题，定向采集官方媒体言论，构建社会立场库；最后，监测社交媒体言论，依据本体实例推理获取相关主题社会立场，通过计算言论与主题社会立场的相悖度做出预警。从基于情感和基于立场的5组网络犯罪预警实验结果可以看出，网络犯罪相关文本是非情感敏感性的，而基于社会立场的建模方法可有效预警网络犯罪。

社交信息背景下路径决策行为实验

余豪, 陈坚

2021, 43(01): 161-169. doi:

摘要 ( 141 )

PDF (1260KB) ( 243 ) 　　

为解决社交信息对路径选择影响缺少定量分析的问题，在行为实验理论的基础上，设计了在无交通信息、部分交通信息和完全交通信息3种情形下的受验者路径选择行为实验，并通过z-Tree和z-Leaf软件得以实现。实验表明：无交通信息情形下，受验者更倾向于选择可能最短路径；在部分交通信息情形下，受验者更倾向于选择当前节点最优路段，路径选择结果整体优于无信息情形，但具体到个体存在路径选择耗时增加的情况；在完全交通信息情形下，整体与个体的路径选择均为最佳。

基于精英集的多目标差分进化聚类算法

张明珠, 曹杰, 王斌

2021, 43(01): 170-179. doi:

摘要 ( 211 )

PDF (646KB) ( 217 ) 　　

聚类数的确定在聚类分析中是一个基本却具有挑战性的问题。一方面，最佳聚类数根据不同的评价标准、用户偏好或需求可能不一致，因此将不同聚类数的聚类结果呈现给用户作参考是有意义的。另一方面，增加聚类数虽会使聚类结果更加紧致，却会削弱不同类之间的分离性，所以选择合适的聚类数是一个在最小化聚类数与最大化类内紧致性或类间分离性之间取得平衡的多目标优化问题。因此，在聚类数不确定的聚类问题中直接将聚类数作为一个优化目标与另一个反映类内紧致性的目标函数同时进行优化，利用新的基于精英集的多目标差分进化算法得到一个Pareto解集，集合中含有多个不同聚类数的近似最优聚类结果。实验结果验证了所提算法的可行性和有效性。

融合社会关系的社交网络情感分析综述

张琦, 张祖凡, 甘臣权

2021, 43(01): 180-190. doi:

摘要 ( 446 )

PDF (625KB) ( 555 ) 　　

随着以用户为中心的Web 2.0的发展，社交网络平台以惊人的影响力渗入到生活的方方面面，对社交网络中的内容进行情感分析已经成为热点研究课题。Twitter、新浪微博等在线社交网站吸引了大量用户，通过用户间的交互，产生了许多包含用户间社会关系的信息，并且这些社会关系被广泛应用于社交网络的情感分析。融合社会关系的社交网络情感分析将用户间交互形成的社会关系应用到对用户发表在社交网络上内容的情感分析中，拟解决文本短小精炼、语义模糊、特征较为稀疏带来的情感分析准确率低的问题。对融合社会关系的社交网络情感分析研究进展进行综述，梳理、分析主要的方法，列举出其中的关键问题，最后阐述了研究趋势和展望，并进行了总结。

当期目录

作者中心

审稿中心

在线期刊