计算机工程与科学

2023年第5期目录

2023, 45(05): 0-0. doi:

摘要 ( 186 )

PDF (261KB) ( 236 ) 　　

面向E级计算的高性能处理器核心运算架构研究进展

吴铁彬, 过锋, 王谛

2023, 45(05): 761-771. doi:

摘要 ( 364 )

PDF (1526KB) ( 558 ) 　　

高性能计算(HPC)已经进入后E级时代。作为超算系统核心器件，高性能处理器通过核心运算架构为HPC提供超强算力。核心运算架构的研究进展代表了高性能处理器体系结构的发展方向。以面向E级计算的先进高性能处理器为目标，从运算资源组织结构、数据和指令级并行方式、领域专用加速结构、支持数据类型和算力等方面对核心运算架构研究进展进行分析和探讨，并展望了高性能处理器核心运算架构的发展趋势。超宽向量SIMD和SIMT、领域专用加速结构加速矩阵运算、支持多种低精度运算以加速HPC和AI融合，将是未来高性能处理器核心运算架构研究和发展的主要方向。

自治故障管理系统推理规则的智能学习技术

张莉丽, 王睿伯, 王晓东, 张文喆

2023, 45(05): 772-781. doi:

摘要 ( 152 )

PDF (739KB) ( 325 ) 　　

随着高性能计算机系统规模急剧增加，系统整体的固有可靠性逐步降低，产生了“可靠性墙”问题。为了应对这一挑战，天河高性能计算机系统设计了自治故障管理系统，通过该系统实时监控、分析、管理全系统的报警、故障和错误。自治故障管理系统所收集的故障消息垂直涵盖系统的各个逻辑层次，水平覆盖系统的全部功能模块，因此故障消息之间存在逻辑上的因果关系，即一个故障源会导致后续一系列的故障事件。提出了一种针对于故障信息的推理规则学习算法EMRL，把故障信息的推理规则建模为一个概率模型，通过该模型自动从故障信息中挖掘故障推理规则，并且根据挖掘结果自动生成最小的故障推理图。采用天河系统的部分运行数据，验证了EMRL算法的有效性，结果表明EMRL能有效挖掘故障信息的推理关系。

基于监督学习的稀疏矩阵自动任务分配

李小玲, 方建滨, 马俊, 谭霜, 谭郁松

2023, 45(05): 782-789. doi:

摘要 ( 206 )

PDF (873KB) ( 419 ) 　　

针对稀疏矩阵与稠密向量乘运算探讨了不同的任务分配策略对性能的影响，观察到任务分配策略的选择会显著地影响稀疏矩阵的运算性能，且不存在一种固定的任务分配策略针对所有的稀疏矩阵都能获得最佳性能。为此，提出了一种基于机器学习的最优任务分配策略选择模型，其训练过程仅使用稀疏矩阵的特征来刻画输入数据集，且能够针对给定的数据集和目标平台自动地训练模型。实验结果表明，相对于默认的块分配方法，使用该模型选择的任务分配方式能够获得平均约35%的性能提升。

基于可再生能源消纳的数据中心负荷调度研究综述

陈冬林, 马一帆, 邹安琪,

2023, 45(05): 790-801. doi:

摘要 ( 273 )

PDF (945KB) ( 423 ) 　　

在“碳达峰碳中和”的社会环境和“碳成本”的经济环境下，可再生能源的消纳成为数据中心运营商负荷调度决策的重要影响因素。分析了可再生能源消纳与数据中心负荷调度协同的价值潜力、模式及挑战；介绍了数据中心负荷调度优化目标和算法；分别从负荷空间转移、负荷时间转移、负荷时空转移3个顶层设计方面对基于可再生能源消纳的数据中心负荷调度策略进行分析、总结和对比。

基于脉动阵列的层融合注意力模型加速器结构

刘晓航, 姜晶菲, 许金伟

2023, 45(05): 802-809. doi:

摘要 ( 214 )

PDF (1734KB) ( 410 ) 　　

注意力机制最近在深度神经网络中表现出优越的性能，但其计算包含复杂的数据流，内存开销和计算量大，需要定制加速器来优化推理计算。提出一种针对注意力机制计算的加速器结构。采用基于硬件控制的灵活分块方法，将模型中的巨大矩阵分成硬件亲和的计算块，使块矩阵的计算匹配加速器脉动阵列；提出基于双步softmax函数分解计算的层融合计算方法，有效减少了注意力模型计算对内存的访问。采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构。基于XILINX FPGA器件和HLS工具进行了性能评估。相同设置下，与CPU相比延迟加速了4.9倍，与GPU相比能效提升了1.24倍。

基于时间自动机的AADL端到端流规约验证方法

白先平, 姚袭欣, 陈香兰, 刘翀, 李曦

2023, 45(05): 810-819. doi:

摘要 ( 210 )

PDF (1271KB) ( 318 ) 　　

体系结构分析及设计语言（AADL）作为一种标准且直观的实时系统分析与设计工具，可以为系统设计、分析、验证、自动代码生成等关键环节提供统一的抽象表示。然而，AADL模型采用仿真的验证方法无法得到精确的端到端延迟验证结果，尤其是对于资源动态分配的实时系统。为解决结果不精确的问题，可结合基于系统有穷状态空间遍历的模型检验方法。首先，将实时系统AADL模型转换为时间自动机（TA）模型，以TA为理论体系进行模型检验。其次，基于反应链的需求分类定义端到端延迟需求表达模式。最后，给出对应需求模式的观察者模型，与系统模型并行组合，优化模型验证的时空资源消耗。

套索边界条件：一种可指导目标冲突修复的分歧描述

罗炜麟, 万海, 杨滨好, 李骁达, 曹鉴恩, 宋晓彤

2023, 45(05): 820-829. doi:

摘要 ( 163 )

PDF (758KB) ( 275 ) 　　

在需求工程中，分歧的目标冲突分析旨在识别、评估和修复分歧。分歧是由于域属性和目标不适配，使得系统在边界条件下无法同时满足所有目标。边界条件以线性时态逻辑的形式描述分歧。由于任意形式的边界条件缺乏可解释性，且评估和修复分歧需要大量人工评估和设计，所以目前边界条件的定义不利于高效地、自动化地评估和修复分歧。为此，首先提出一个可解释的边界条件——套索边界条件，直观地描述了系统由于一些特定的前提条件而产生分歧的情况;然后，设计了一个基于逐步弱化的套索边界条件识别算法LBCI，通过弱化线性时态逻辑公式逐步满足边界条件;最后，在基准数据集上评估了套索边界条件和LBCI的有效性。实验结果显示，套索边界条件增强了分歧的可解释性和对修复分歧有一定的指导作用。

基于优化随机森林的软件缺陷预测算法研究

唐宇, 代琪, 杨志伟, 杨爱民, 陈丽芳,

2023, 45(05): 830-839. doi:

摘要 ( 266 )

PDF (800KB) ( 453 ) 　　

针对传统随机森林应用于软件缺陷预测领域存在预测精度低、参数难以优化的问题，提出一种分数阶变异麻雀优化随机森林参数的软件缺陷预测算法(FMSSA-RF)。首先，使用分数阶变异麻雀算法(FMSSA)提高麻雀算法全局寻优能力，在4个基准测试函数中，FMSSA具有更高的寻优精度；然后，使用分数阶变异麻雀算法优化随机森林参数；最后，将FMSSA-RF算法应用于软件缺陷预测领域。实验结果表明，在4个项目的10个公开软件缺陷数据集上，FMSSA-RF算法的评价指标明显优于其它3种对比算法的，表明FMSSA-RF算法具有更高的预测精度和更好的稳定性。Friedman ranking和Holm’s post-hoc test的检验结果表明，FMSSA-RF算法具有明显的统计显著性。

一种无人巡航船遍历多目标点的路径规划算法研究

于家斌, 陈志豪, 邓维, 许继平, 赵峙尧, 王小艺

2023, 45(05): 840-848. doi:

摘要 ( 216 )

PDF (1332KB) ( 396 ) 　　

针对无人巡航船遍历多目标点的路径规划问题，提出了一种混合的多目标点路径规划算法。首先，将多目标点路径规划问题转化为旅行商问题，并采用改进的灰狼优化算法规划出多目标点的最优巡航顺序。针对传统灰狼优化算法忽略环境因素的缺陷，通过在适应度函数中引入环境影响因子以反映障碍物和未知区域对路径规划的影响。然后，在上述规划好的多目标点巡航顺序的基础上，利用A*算法结合改进的人工势场法完成各个目标点之间的路径规划。针对传统人工势场法的目标不可达问题，通过优化斥力势场函数来解决。最后，分别在普通环境和复杂环境中与另外2种算法进行了仿真实验对比。实验结果分析表明，提出的算法是有效的，能够有效缩短路径规划时间，降低距离成本。

融合局部动态特征的面部表情识别

刘南艳, 魏鸿飞, 马圣祥

2023, 45(05): 849-858. doi:

摘要 ( 184 )

PDF (1421KB) ( 411 ) 　　

面部表情是人类表达情感最重要的方式之一。面部表情变化受多个面部器官和面部肌肉运动的影响。为了能有效提取局部动态特征和解决面部表情部分遮挡问题，提出一种简单有效的融合局部动态特征的深度学习网络，通过构建引导注意网络，利用检测到的脸部关键点来引导网络关注无遮挡的面部区域。为了强化不同表情特征之间的联系，利用局部动态特征网络，在带有时间序列的关键帧中提取如眼睛、嘴巴等关键区域的动态信息和时空信息。最后，将局部动态特征补充到整体网络中。融合后的网络在CK+、Oulu-CASIA、RAF-DB和AffectNet数据集上的精度分别为98.08%，90.59%,86.02%和61.28%，相较于其它网络的识别率均有提高。

一种求解CVRP的动态图转换模型

王扬, 陈智斌

2023, 45(05): 859-868. doi:

摘要 ( 252 )

PDF (780KB) ( 652 ) 　　

带容量的车辆路径问题是组合最优化问题中的经典问题，多年以来一直被反复研究。最近，Transformer已经成为解决车辆路径问题的主流深度学习架构。然而，由于一个实例在模型不同构造步骤中会发生改变，相应的节点特征也需要更新，传统位置编码方法不适用于提取动态优化问题的位置信息。因此，现有方法在提高学习效率方面效果较差。以最小化路径长度为目标，提出一种动态图转换模型 (DGTM) 和动态位置编码 (DPE) 方法，并使用一种双重损失REINFORCE算法训练DGTM模型。此外，强化学习、图神经网络和Transformer架构相结合，提高了模型的训练效率，增强了神经网络对带约束路径问题信息的表征能力。实验结果表明，DGTM模型在此问题上的优化效果超越了目前基于深度强化学习的方法和部分传统算法，整体性能优于专业求解器的，且具有较好的泛化性能，为求解图上组合最优化问题提供了一种有效方法。

基于改进Faster R-CNN的小目标检测算法

邓姗姗, 黄慧, 马燕

2023, 45(05): 869-877. doi:

摘要 ( 438 )

PDF (1604KB) ( 758 ) 　　

针对图像纹理细节等高频特征在基于卷积神经网络模型的特征提取过程中丢失，从而导致小目标检测效果较差的问题，提出一种多层频域特征融合的目标检测算法。算法以Faster R-CNN为基础框架，使用高频增强后的图像和对比度增强后的图像作为算法输入样本，提高了待检测图像质量；针对总像素面积较小的目标，更改RPN网络中的锚点尺度，并利用多尺度卷积特征融合的方法，融合来自不同特征层的特征，解决了小目标在深层特征图中特征信息丢失的问题。实验结果表明，所提算法在DAGM 2007数据集上具有良好的性能，平均精度均值mAP达到了97.9%，在PASCAL VOC 2007测试集上对小目标的mAP也明显优于原始Faster R-CNN的。

密集交通场景中改进YOLOv3目标检测优化算法

霍爱清, 张书涵, 杨玉艳, 胥静蓉, 王泽文

2023, 45(05): 878-884. doi:

摘要 ( 195 )

PDF (897KB) ( 464 ) 　　

针对交通拥堵的车辆密集场景中检测目标重叠率高而导致漏检和误检的问题，提出了改进YOLOv3、CIoU损失函数优化以及SD-NMS优化算法(简记L-YOLOv3+CIoU Loss+SD-NMS)。利用深度可分离卷积、SE 模块和Ghost 模块改进YOLOv3 的残差单元结构，以提高对密集目标的特征提取能力，减少网络模型参数量；采用完整交并比CIoU损失函数加快网络模型收敛速度，同时将多目标集合预测思想与 DIoU-NMS 有机结合，提出了 SD-NMS 优化算法，以降低漏检误检率。在BDD100K数据集上进行实验，结果表明，改进的目标检测算法召回率达到 91.58%，精准率达到93.04%，与 YOLOv3 算法相比，召回率和精准率分别提升了12.09%和9.52%，具有更好的检测效果。

基于多尺度多模态学习的光球亮点曲线轨迹段检测方法研究

方雪杉, 杨云飞, 冯松

2023, 45(05): 885-894. doi:

摘要 ( 147 )

PDF (1725KB) ( 380 ) 　　

太阳光球亮点近似旋转的曲线运动对研究太阳内部的能量如何传输到日冕层具有重要意义。现有的算法仅能检测光球亮点的全局型曲线运动，因此提出了一种多尺度多模态的深度学习方法来检测光球亮点的全局型和局部型曲线运动。首先，基于双向长短期记忆网络构建了一种多尺度网络模型,用来提取光球亮点的运动轨迹段的多尺度时序特征；然后，采用EfficientNet-B0提取运动轨迹段的空间特征,通过将时序特征和空间特征融合成多模态特征来检测光球亮点各种类型的曲线轨迹段。实验结果表明，所提方法的准确率达到了85.08%，相较于单尺度方法的提升了6.12%,相较于多尺度单模态方法的提升了3.1%。所提方法亦可应用于其他领域的运动类型检测任务中。

基于深度学习的实体关系抽取方法研究

排日旦·阿布都热依木, 吐尔地·托合提, 艾斯卡尔·艾木都拉,

2023, 45(05): 895-902. doi:

摘要 ( 188 )

PDF (679KB) ( 342 ) 　　

常用的神经网络，如卷积神经网络（CNN）和循环神经网络（RNN），在关系抽取任务中都表现出了很不错的效果。然而，卷积神经网络擅长捕获局部特征，但不太适合处理序列特征；传统的循环神经网络虽然可以有效提取长距离词之间的特征，但容易出现梯度消失或梯度爆炸问题。针对这些问题，提出了一种结合BiLSTM-CNN-Attention的混合神经网络模型。BiLSTM和CNN的结合使它们优劣互补，而Attention的引入能够突出实体间关系词在整个句子中的重要性。并且，在词嵌入层使用拼接词向量，克服了词向量单一表示的问题。实验结果表明，相比word2vec词向量，拼接词向量能够获取语义更丰富的词向量，使词向量的健壮性更强。与BiLSTM-CNN、CNN-Attention和BiLSTM-Attention模型相比，BiLSTM-CNN-Attention混合模型的准确率和F1值都有所提升。

融合RoBERTa的多尺度语义协同专利文本分类模型

梅侠峰, 吴晓鸰, 黄泽民, 凌捷

2023, 45(05): 903-910. doi:

摘要 ( 211 )

PDF (717KB) ( 404 ) 　　

针对静态词向量工具（如word2vec）舍弃词的上下文语境信息，以及现有专利文本分类模型特征抽取能力不足等问题，提出了一种融合RoBERTa的多尺度语义协同(RoBERTa-MCNN-BiSRU++-AT)专利文本分类模型。RoBERTa能够学习到当前词符合上下文的动态语义表示，解决静态词向量无法表示多义词的问题。多尺度语义协同模型利用卷积层捕获文本多尺度局部语义特征，再由双向内置注意力简单循环单元进行不同层次的上下文语义建模，将多尺度输出特征进行拼接，由注意力机制对分类结果贡献大的关键特征分配更高权重。在国家信息中心发布的专利文本数据集上进行验证，与ALBERT-BiGRU和BiLSTM-ATT-CNN相比，RoBERTa-MCNN-BiSRU++-AT部级专利的分类准确率分别提升了2.7%和5.1%，大类级专利的分类准确率分别提升了6.7%和8.4%。结果表明，RoBERTa-MCNN-BiSRU++-AT能有效提升对不同层级专利的分类准确率。

基于双通道门控复合网络的中文产品评论情感分析

董芃杉, 张晶, 金日泽

2023, 45(05): 911-919. doi:

摘要 ( 198 )

PDF (889KB) ( 395 ) 　　

情感分析任务旨在理解和分类实体及其属性所表达的情感极性。在对中文文本进行分类时，现有的方法大多输入特征表示单一，导致模型不能充分学习语义信息。针对上述问题，提出了一种采用双通道门控复合网络的模型DGCN，将词向量和字向量作为双通道的输入，弥补了词向量由于分词不准确等问题造成的缺陷并丰富了语义信息；同时，使用门控机制改进了通道的结合方式，让字向量更好地辅助词向量学习文本的特征信息；在每个通道上都使用双向门限循环网络和卷积神经网络构成的复合网络，让二者优势互补，并添加Attention机制关注更有效的特征。实验结果表明，在中文产品评论情感分析方面，模型DGCN的准确率和F1值优于对照组的，且有良好的应用能力。

基于差分进化策略的天牛须搜索算法及其应用

叶坤涛, 舒蕾蕾, 李文, 侯春菊

2023, 45(05): 920-930. doi:

摘要 ( 205 )

PDF (1171KB) ( 295 ) 　　

针对天牛须搜索(BAS)算法收敛结果高度依赖单个个体、勘探能力弱、容易陷入局部最优解的问题，提出一种基于差分进化策略的天牛须搜索(BASD)算法。该算法使用佳点集方法初始化天牛种群，提高了算法的种群多样性；引入动态差分进化思想，设计了一种精英演化竞争指导策略，较好地平衡了算法的开采和勘探能力。通过14个基准函数对BASD算法进行测试，并与几种先进智能优化算法的优化结果进行比较。结果显示，BASD算法的优化性能整体更好。将BASD算法应用于图像增强中，结果表明，使用BASD算法增强后的图像灰度分布更均匀、分布范围更大。

Conv-WGAIN：面向多元时序数据缺失的卷积生成对抗插补网络模型

刘子建, 丁维龙, 邢梦达, 李寒, 黄晔

2023, 45(05): 931-939. doi:

摘要 ( 251 )

PDF (1249KB) ( 432 ) 　　

油浸式变压器的油色谱数据是一种多元时序传感数据，设备或网络失误往往会导致数据缺失，通常需要通过插补形成完整数据集，才能用于进一步的业务分析研究。但是，现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带来的插补效率低和效果难以保障的问题，对此提出一种名为Conv-WGAIN的生成对抗插补网络模型，通过构建的插补特征图，可利用二维卷积从前后2个方向学习时间特征，处理时间间隔不均匀的数据；在判别器中引入Wasserstein距离来判别生成插补数据与真实观测数据，提升了生成器的稳定性。在真实项目中的油色谱数据集和3个公开数据集上的实验表明，该模型在多元时序缺失数据上具有普遍适用性，而且在不同的缺失率下的插补结果要优于其他对比模型的，RMSE降低了20.75%~73.37%。

基于教与学和逐维柯西变异的鲸鱼优化算法

付接递, 李振东, 郭辉

2023, 45(05): 940-950. doi:

摘要 ( 189 )

PDF (2270KB) ( 294 ) 　　

基本鲸鱼优化算法在面对复杂优化问题时仍然存在易陷入局部极值、收敛速度慢和计算精度低等问题，为此提出一种基于教与学和逐维柯西变异的鲸鱼优化算法TCWOA。首先，选用Sobol序列对鲸鱼种群进行初始化操作，可使种群分布更均匀；其次，引入教与学算法中的教学策略替换鲸鱼优化算法中的随机搜索策略，避免搜索的盲目性，提高算法的收敛速度；再次，采用带惯性权重的逐维柯西变异对鲸鱼最优个体进行变异扰动，助其跳出局部最优解，增强算法的全局搜索能力；最后，与多种优化算法在10个标准测试函数上的对比分析，以及用TCWOA先优化BP网络参数，再预测波士顿房价的应用研究结果，表明了该优化算法的有效性和准确性。

当期目录

作者中心

审稿中心

在线期刊