计算机工程与科学

2020年第11期目录

2020, 42(11): 0-0. doi:

摘要 ( 349 )

PDF (286KB) ( 496 ) 　　

矩阵乘协处理器上BLAS level-3运算的设计

贾迅, 钱磊, 原昊, 张昆, 吴东

2020, 42(11): 1913-1921. doi:

摘要 ( 582 )

PDF (668KB) ( 426 ) 　　

BLAS level3运算的计算复杂度较高，其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level3运算，对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算，结合线性阵列的结构特点，提出了矩阵乘协处理器上BLAS level3运算的设计，并构建了相应的性能分析模型。实验结果表明，矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%，98%和80%，与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比，最高提升了31%。

面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算

李彪, 刘杰,

2020, 42(11): 1922-1928. doi:

摘要 ( 669 )

PDF (709KB) ( 454 ) 　　

粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法；基于天河2A系统的异构通信模式BCL和ACL，提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;在Matrix2000加速器端，通过OpenMP指令开发程序的线程级并行；优化了原MC程序串行数据收集通信模式，提出了新的二叉树通信模式，极大地减少了通信时间。实现的基于CPU/Matrix2000异构协同计算的并行程序，在天河2A系统上进行测试，大规模测试可以扩展到45万核，相对5万核并行效率保持在22.54%。

基于忆阻器的计算存储融合体系结构研究进展

方旭东, 吴俊杰

2020, 42(11): 1929-1940. doi:

摘要 ( 701 )

PDF (1266KB) ( 551 ) 　　

忆阻器是一种使能器件，具有阻值非易失、低功耗、高耐久度、易于集成、CMOS工艺兼容性等特性。基于忆阻器的状态逻辑计算能够实现计算和存储的真正融合，并且是逻辑完备的，从而有望突破冯·诺依曼架构的限制，有效缓解存储墙瓶颈问题。这些优异特性使得忆阻器相关研究受到学术界和工业界的极大关注。鉴于此，从忆阻器所具有的状态逻辑计算特性出发，综述面向应用的计算存储融合体系结构的研究进展。首先详细分析了状态逻辑的实现原理和改进方法；接着梳理了基于忆阻器交叉杆的状态逻辑设计，包括基本逻辑并行实现、拷贝操作和比较操作；然后概括了基于忆阻器的数据存储结构的设计原理和实现结构；在此基础上，探讨了面向应用的计算存储融合体系结构技术；最后，对该方向研究存在的问题进行了总结，并对未来的发展方向进行了展望。

基于FPGA的事件抽取模型与加速器的设计实现

韩哲, 姜晶菲, 乔林波, 窦勇, 许金伟, 阚志刚

2020, 42(11): 1941-1948. doi:

摘要 ( 934 )

PDF (796KB) ( 503 ) 　　

事件抽取技术是实现特定信息快速提取的一种关键技术，可广泛应用于信息检索、情感分析等场景。中文事件抽取因需要考虑中文语言特性的问题，较英文事件抽取任务来说更为困难。基于当前前沿的英文事件抽取神经网络模型，提出了一种适合硬件计算的中文事件抽取神经网络模型CEEDGCNN，其事件触发词分类在ACE2005中文语料库上实现了71.71%的F1值。并设计实现了相应的加速器，通过对数据的定点量化进一步优化了模型大小，其性能在Xilinx XCKU115 FPGA上达到了97 GOP/s，为CPU平台上性能的67倍。

基于SCILAB的多精度算法研究与实现

兰静, 刘文超, 姜浩, 林文强

2020, 42(11): 1949-1955. doi:

摘要 ( 451 )

PDF (671KB) ( 343 ) 　　

当前，通用处理器一般支持64位浮点运算，在大规模和长时程数值计算中，由于浮点运算的舍入误差累积效应，可能导致数值结果不可信。因此，有效控制误差，设计高精度、高效可靠的浮点数值算法至关重要。基于SCILAB软件平台，通过使用无误差变换和doubledouble数据格式，实现了高精度的算法库。对幂指数、Bernstein和Chebyshev基多项式函数估值，在Intel平台和国产飞腾处理器平台上进行了数值实验，实验结果证实了该高性能数值算法库的有效性。该多精度算法库具有独立知识产权，可有效应用于国产自主可控处理器平台，为国家重大科研项目提供技术支持。

满足工作流执行时限的可抢占虚拟机实例配置和调度方法研究

廖建锦, 孙庆骁, 杨海龙, 栾钟治, 钱德沛

2020, 42(11): 1956-1964. doi:

摘要 ( 553 )

PDF (816KB) ( 406 ) 　　

随着云计算的迅速发展，将工作流部署到云计算平台已经成为了常见的选择。相比于传统的本地工作流，云工作流不仅要考虑计算时长等要求，还要考虑其产生的经济开销。而云计算服务商为了提高资源利用率，提供了可抢占虚拟机实例这种非常廉价但是不稳定的资源。针对工作流在云计算中的调度和执行问题，提出一种满足工作流执行时限的可抢占虚拟机实例配置和调度方法。该方法使用马尔科夫模型和动态规划方法，对可抢占虚拟机实例的价格进行预测，并得到成本最低的出价策略。同时，结合工作流的执行时限要求，在估计的出价策略下对工作流中使用的实例进行配置。实验结果显示，相比于全部使用按需付费虚拟机实例，该方法在满足工作流执行时限的前提下最高可以节省89.9%的计算成本。

面向HPC互连网络的低延迟前向纠错编码研究与实现

王超, 曹继军, 罗章, 赖明澈, 徐炜遐

2020, 42(11): 1965-1972. doi:

摘要 ( 779 )

PDF (844KB) ( 488 ) 　　

当前主流高性能互连网络的端口速率已达到100~400 Gbps，其单通道速率已达到25~50 Gbps。在这种高速率的网络上传输数据，前向纠错编码是提高其可靠性的必要技术。以太网国际规范IEEE 802.3采用的前向纠错编码为RS(528,514)和RS(544,514)，但是这2种码型难以满足高性能互连网络在低延迟方面的性能需求。首先，分析了RS的编码和译码结构，并定量研究了RS码型参数与编解码延迟之间的关系。接着，提出了一种面向当前高性能互连网络的新型低延迟编码—RS(271,257)，并比较了该码型在占用带宽和纠错能力等方面的优缺点。最后，实现了基于RS(271,257)的低延迟网络编码子层，并对其进行了资源消耗评估和延迟性能模拟。综合考虑资源消耗、纠错能力和延迟性能3方面因素，RS(271,257)是一种理想的低延迟前向纠错码型，可满足当前面向HPC的低延迟高性能互连网络的编码子层的设计需求。

面向HPC的函数计算冷启动优化

李哲, 谭郁松, 李宝, 余杰

2020, 42(11): 1973-1980. doi:

摘要 ( 595 )

PDF (640KB) ( 524 ) 　　

高性能计算问题通常具有子任务并行化的特点，同时在执行过程中需要消耗大量计算资源。以虚拟机作为分布式节点的传统云计算已经被证明能够很好地处理一些常见的高性能计算问题，但分布式环境的管理和解决方案的分布式设计令处理过程变得较为复杂。函数计算是一种新的无服务器云计算范型，其自动扩容的特性和可观的计算资源恰好与高性能计算问题能够很好地结合，但函数计算自动扩容的特性带来的冷启动延迟却是函数计算平台上一个无法避免的问题，尤其是在执行高性能计算这一类存在高并发量作业的任务时，这种延迟会被进一步放大。首先分析一个高性能计算任务在冷启动和热启动情况下的完成时间，同时分析造成额外延迟的原因，然后结合时间序列分析工具和平台自身的扩容机制，提出一种预热方法，这种方法能够有效地降低高性能计算任务在函数计算平台上产生的冷启动延迟。

基于天河互连MPI聚合通信归约操作卸载优化

王浩, 张伟, 谢旻, 董勇

2020, 42(11): 1981-1987. doi:

摘要 ( 822 )

PDF (646KB) ( 620 ) 　　

MPI聚合通信操作广泛应用于并行科学计算中，对程序的可扩展性和性能有重要影响。天河互连网络支持基于触发的消息通信操作，
通过在网络接口中卸载执行数据传输和计算操作，提高结点通信性能。利用触发操作，实现结点之间的归约操作通信卸载，设计了不同树形结构的Allreduce和Reduce通信卸载算法。基于实际系统平台的测试表明，与MPICH中基于点对点通信实现的归约算法相比，基于触发的通信卸载算法在不同规模下运行时间最多可降低59.6%。

基于关联数据本地化的多密码作业流调度算法

关川江, 李建鹏, 史国振, 毛明

2020, 42(11): 1988-1995. doi:

摘要 ( 413 )

PDF (1560KB) ( 385 ) 　　

针对云密码服务系统中服务请求多样、数据依赖性作业流与非数据依赖性作业流随机交叉并发等问题，为了避免处理节点之间关联数据的交互而带来的系统通信性能开销和数据安全性威胁，设计一种基于关联数据本地化的云密码作业流调度算法。首先通过任务请求密码功能的映射，保障多作业流请求密码功能的正确实现；然后对于具有相同请求密码功能的各任务中不同工作模式交叉问题，在提出任务优先级计算方法以促进多作业流调度公平性的基础上，采用分类调度的方法，在实现关联数据本地化的同时，保障了调度系统的整体性能。仿真结果表明，该算法不仅可以有效减少系统任务完成时间，提高资源利用率和公平性，并且具有良好的稳定性。

基于非理想电池模型能量收集无线传感器网络的链路调度

王宁波, 王露瑶, 徐晓斌

2020, 42(11): 1996-2004. doi:

摘要 ( 436 )

PDF (697KB) ( 376 ) 　　

近年来，为了解决传感器节点能量受限问题，能量收集无线传感器网络成为了研究热点。针对传感器节点中电池存在容量有限、充放电损耗和能量泄漏等不足，提出了非理想电池模型的收集使用存储能量存储结构。综合路由、链路调度和能量分配3个方面建立数学模型，通过求解混合整数线性方程的方法得到最短帧长，从而提升网络吞吐量。仿真实验表明，充放电效率从0.6提高至0.9，帧长最多可减少48%；能量泄漏速率从0.04降低至0.01，帧长最多可减少33%；而扩大电池容量对帧长基本无影响。对比收集存储使用能量存储结构，帧长最多可减少11%，从而验证了利用所提方法，可以提高充放电效率，降低能量泄漏速率，大幅度提升网络吞吐量。

区块链上支持多关键字检索的可搜索加密方案

牛淑芬, 王金风, 王伯彬, 陈敬民, 杜小妮

2020, 42(11): 2005-2012. doi:

摘要 ( 1330 )

PDF (892KB) ( 611 ) 　　

在基于云存储的单关键字可搜索加密中，云服务器不是完全可信的，且现有的单关键字检索不能精确地返回搜索结果。基于此，
结合区块链技术提出了区块链上的多关键字可搜索加密方案。该方案采用对称加密算法提高了加密效率；利用区块链技术解决了云服务器不诚实搜索的问题；采用多关键字的索引结构提高了搜索结果的精确性。在随机预言模型下，证明了该方案在选择关键字攻击下是不可区分INDCKA安全的，通过效率分析表明该方案具有更高的效率。

选择排序的DCT系数对JPEG图像的可逆数据隐藏

王若飞, 刘锋

2020, 42(11): 2013-2019. doi:

摘要 ( 605 )

PDF (622KB) ( 385 ) 　　

JPEG图像压缩算法可以为使用者提供良好的压缩性能，改善图像文件重建质量，在图像和视频处理领域有着广泛的应用价值。
提出了一种可行且有效的对JPEG图像进行可逆信息隐藏的算法。在该算法中，JPEG图像中所有的8×8块中量化的DCT系数重新排列成新的矩阵，纵列为每个块的系数值，横列为同频率下的系数值。对相同频率下的系数进行模拟嵌入比特位，优先选择失真小的频率下的系数嵌入信息，直到嵌入完秘密比特流信息，同时在嵌入秘密信息时根据解码矩阵减少了无效的比特流扩展。实验结果表明，该算法在嵌入同等数量的比特流的情形下能够得到更好的JPEG图像视觉质量和更少的图像比特流扩展。

强干扰条件下机场道面细小裂缝自动识别算法

李海丰, 吴治龙, 聂晶晶

2020, 42(11): 2020-2029. doi:

摘要 ( 685 )

PDF (1247KB) ( 516 ) 　　

针对机场道面裂缝极其细小，而基于深度相机的裂缝检测技术面临道面表观结构复杂和平台剧烈震动的双重强干扰的难题，提出了结合L2正则化与动态阈值贪心策略的道面主轮廓建模算法，并基于此实现了机场道面毫米级细小裂缝的精确检测。首先，设计了基于L2正则化约束的道面主轮廓模型估计方法，解决了因表观结构复杂而导致的道面主轮廓过拟合问题；其次，提出基于动态阈值的改进贪心算法，通过迭代去除异常点的方式抑制检测平台震动带来的噪声干扰；最后，基于构建的道面主轮廓模型，提取并融合多方向的机场道面主轮廓，并利用裂缝的深度与形态信息实现裂缝提取。通过在真实机场道面数据集上的测试结果表明，该算法能够精确地完成道面主轮廓重建和细小裂缝识别，且识别性能优于多种现有经典的裂缝检测算法。

基于深度残差网络和GRU的SqueezeNet模型的交通路标识别

霍爱清, 张文乐, 李浩平

2020, 42(11): 2030-2036. doi:

摘要 ( 633 )

PDF (827KB) ( 403 ) 　　

现有的交通路标识别方法都是基于卷积神经网络的，随着网络层数的增加，准确率会提高，但也出现了效率降低、参数量增加等问题。为此，提出结合深度残差网络和GRU网络的改进SqueezeNet模型（SqueezeNetIRGRU）。该模型采用ELU函数作为激活函数，以提高学习效率；引入深度残差网络，以避免网络太深时梯度消失的情况；利用GRU神经网络能够记忆过去的重要特征来保证模型的稳定性。在CIFIR10和GTSRB数据集上进行了实验，其识别准确率分别达到99.13%和88.25%以上。实验结果表明，SqueezeNetIRGRU模型不仅大幅度降低了参数量，其收敛性、稳定性和召回率也都优于其他网络模型的。

三次Cardinal样条函数的自由参数优化方案

李军成, 刘成志

2020, 42(11): 2037-2041. doi:

摘要 ( 510 )

PDF (387KB) ( 313 ) 　　

为了合理地取定三次Cardinal样条函数所含的自由参数，讨论了插值问题中三次Cardinal样条函数所含自由参数的优化问题。首先分析了自由参数对三次Cardinal样条函数曲线形状的影响，然后给出了数据插值与函数逼近这2种情形下自由参数最优取值的计算方案，分别得到了具有极小二次平均振荡与极小逼近误差的三次Cardinal样条函数。当需要构造具有良好形状保持效果或逼近效果的三次Cardinal样条函数时，可通过所提出的方案选取自由参数的最优取值。

NSST域下SPCNN与SR结合的多源图像融合

张丽霞, 曾广平, 宣兆成

2020, 42(11): 2042-2049. doi:

摘要 ( 652 )

PDF (889KB) ( 378 ) 　　

为了凸显不同源图像的不同特征，提出了基于图像特征的参数自动设定的SPCNN模型。结合稀疏表示，提出了一种适合多源图像融合的方法。首先源图像经NSST变换分解为高频系数和低频系数。对高频系数利用图像固有特征自动设置参数的SPCNN模型实现点火，并依据点火总次数和加权融合规则完成融合。对低频系数采用稀疏表示实现融合。最后，通过逆NSST变换重构图像。实验结果表明，本文所提融合方法优于其他5种经典方法，融合图像符合人眼视觉感知系统，结构清晰，细节明显。

基于深度学习的大口径火炮健康管理系统研究

张原, 姜焕成

2020, 42(11): 2050-2058. doi:

摘要 ( 823 )

PDF (1086KB) ( 578 ) 　　

大口径火炮可以用最小的代价对敌人造成最大范围的行动限制，是战场上十分关键的火力压制武器，但是由于其工作环境严酷，大口径火炮在执行任务时表现十分不稳定。基于大口径火炮健康管理系统研究项目，在做好对大口径火炮工作状态实时监测与记录的同时，结合专家分析等健康管理手段，提出基于深度学习的大口径火炮故障预测与分析设计思路，利用深度置信网络无监督的高效特征提取能力和多层感知机有监督的数据分类能力，建立故障预测深度学习模型，实现对大口径火炮故障状态的预测，为大口径火炮的预先维护保养提供技术支持，从而提高大口径火炮的可靠性。

采用自注意力机制和CNN融合的实体关系抽取

闫雄, 段跃兴, 张泽华

2020, 42(11): 2059-2066. doi:

摘要 ( 1585 )

PDF (762KB) ( 525 ) 　　

目前在实体关系抽取任务中，神经网络模型发挥着重要的作用，利用卷积神经网络可以自动提取特征，但是在卷积神经网络中利用固定窗口大小的卷积核来提取句子中词的上下文语义信息受到限制。因此，提出一种新的采用自注意力和卷积神经网络融合的关系抽取模型。利用原始的词向量通过自注意力机制计算得到序列中词之间的相互关系，使得输入的词向量表达出更加丰富的语义信息，从而
弥补卷积神经网络自动提取特征的不足。在 SemEval2010 Task 8数据集上的实验结果表明，加入自注意力机制以后，本文模型有利于提升实体关系抽取效果。

基于改进小波阈值-CEEMDAN算法的ECG信号去噪研究

张培玲, 李小真, 崔帅华

2020, 42(11): 2067-2072. doi:

摘要 ( 1596 )

PDF (951KB) ( 737 ) 　　

为了剔除心电图(ECG)信号中的噪声，提出了一种基于改进小波阈值CEEMDAN的去噪算法。首先对ECG信号进行CEEMDAN分解得到了一组由高频到低频分布的固有模态分量(IMF)，然后根据相关系数法，对高频IMF分量进行改进阈值的小波去噪。对于低频IMF分量，再通过设定固定阈值，将低于该阈值的IMF分量确定为基线漂移信号并剔除，然后将去噪后的IMF分量和保留的IMF重构。实验结果表明，该算法相比经验模态分解（EMD）小波去噪和整体平均经验模态分解（EEMD）小波去噪算法效果更佳。

数字化藏文古籍中多样性字体的实现方法研究

朱倩倩, 车文刚, 苗晗

2020, 42(11): 2073-2079. doi:

摘要 ( 615 )

PDF (897KB) ( 356 ) 　　

计算机成为数据共享和信息交流的工具之后，统一的计算机字体使得文字失去了手写字的多样性与离散性。文字是文化传播和文明传承的关键因素，许多古籍电子化以后失去了原版古籍中具有文化背景和历史意义的特色字体。例如堪称藏族文化一绝的具有多样性和离散性的雕刻字体。为了解决这个问题，提出了将藏文古籍中雕刻字体数字化的方法。结合投影法与连通域法切分古籍图像；通过GIST特征算法实现图像文字的识别；采用SIFT特征算法实现图像字体风格分类，获取古籍中不同风格的雕刻字体；提出字体多样性表达算法实现古籍中雕刻字体的多样性和离散性。研究的目的是传承和保护雕刻字体，具有重要的文化研究和传承意义。

一种用于求解TSP问题的随机最佳插入烟花算法

吴俊斌, 吴晟, 吴兴蛟

2020, 42(11): 2080-2087. doi:

摘要 ( 1035 )

PDF (1053KB) ( 405 ) 　　

TSP问题是一个NP难问题，求解时间随问题规模呈几何级数增长，如何在较短时间内求得更精确的解一直是重要的研究问题。因为烟花算法在求解过程中能够快速收敛，而且能跳出局部最优解，所以基于烟花算法改进了爆炸资源分配的方式，创新性地提出了2个算子：抛弃节点重新插入的爆炸算子和抛弃路径重新插入的变异算子。再使用精英与轮盘赌相结合的烟花选择策略，设计了一种随机最佳插入的烟花算法（RBIFWA）。将该算法与基本烟花算法、混沌烟花算法、离散蝙蝠算法和自适应模拟退火蚁群算法进行比较，结果显示，RBIFWA算法在迭代次数上明显优于其他算法，且算法的解更加接近已知最优解，表明RBIFWA算法在求解TSP问题上具有更加优秀的性能和更高的求解质量。

节点属性和拓扑信息相结合的脑网络聚类模型

肖继海, 崔晓红, 陈俊杰

2020, 42(11): 2088-2095. doi:

摘要 ( 653 )

PDF (738KB) ( 433 ) 　　

目前，脑网络分类是研究热点，研究者采用不同的方法从标签数据中提取并选择特征，以实现对数据的自动分类，但是从大量的标签数据中提取和选择最优的特征很费时。针对以上问题，提出一种脑网络相似度计算方法并构建基于无偏脑网络的聚类模型。首先，使用余弦相似度和子网络核来度量脑网络的属性相似度和结构相似度，然后将结构相似度和属性相似度集成为一个相似度矩阵，最后利用谱聚类实现脑网络聚类。对openfMRI数据库中的50名精神分裂症患者与49名正常对照组进行了聚类测试，结果显示，Rand指数为0.91，精确率为0.86，召回率为0.98，F1为0.92。研究表明提出的模型能较准确地计算脑网络相似性，表现出较高聚类性能。

基于改进遗传算法的连锁便利店配送路径优化

李丹莲, 曹倩, 徐菲

2020, 42(11): 2096-2102. doi:

摘要 ( 822 )

PDF (667KB) ( 725 ) 　　

提出一种针对软时间窗下连锁便利店配送路径规划的带时间窗口的多染色体遗传算法。为解决单车场多车型带密集半软时间窗问题，讨论解决方案预防其陷入局部最优解。对于上述配送路径问题，提出多染色体改进遗传算法在减少车辆运输成本、惩罚成本的目标下进行最优路径求解，并为连锁便利店的路径规划案例提出车辆与路径选择的优化方案，最后将该算法与传统遗传算法进行实验对比分析。实验结果表明，本文算法在密集半软时间窗下，相比传统遗传算法明显减少了总配送成本，从而验证了本文算法的有效性。

当期目录

作者中心

审稿中心

在线期刊