计算机工程与科学

2024年第12期目录

2024, 46(12): 0-0. doi:

摘要 ( 132 )

PDF (269KB) ( 259 ) 　　

2024年中国高性能计算机发展现状分析

张云泉, 邓力, 袁良, 袁国兴

2024, 46(12): 2091-2098. doi:

摘要 ( 214 )

PDF (1031KB) ( 301 ) 　　

根据2024年11月发布的中国高性能计算机性能TOP100排行榜的数据，对国内高性能计算机的发展现状从总体性能、制造商、体系结构和行业领域等方面进行了讨论分析，同时对未来发展进行了展望。

高精度两步分支混合CORDIC算法设计及FPGA实现

陈小文, 芮志超, 朱麒瑾, 董羽, 孟宇,

2024, 46(12): 2099-2108. doi:

摘要 ( 114 )

PDF (1142KB) ( 169 ) 　　

CORDIC(坐标旋转数字计算机)算法是一种用于计算三角函数和其他数学运算的算法，被广泛应用于数字信号处理、计算机图形学等领域。CORDIC算法仅需要加减和移位运算，特别适合布署在硬件平台。传统CORDIC算法的局限在于迭代次数过多，虽然不少研究对此进行了优化，但也增加了硬件开销且易造成精度丢失。为此，基于Hybrid CORDIC算法和Double step branching CORDIC算法，给出了一种CORDIC优化算法——高精度两步分支混合CORDIC（HD CORDIC）算法。该算法在迭代次数上减少到N/4+“1”（N为微旋转角度个数及位宽），并给出了新的混合角度集的划分公式，以达到ε<2-(N-2)的高精度，与基本CORDIC算法（ε<2-(N-1)）相近，且不用计算缩放因子K。HD CORDIC算法采用流水线结构，流水线级数仅为N/4+3（不含缩放因子补偿操作的基本CORDIC算法为N+2）。采用Verilog对所提算法进行了硬件实现，并在XILINX Zynq-7000 xc7z100ffv900-2 FPGA平台上进行了综合，实验评估显示，当输入角度位宽为16时，工作频率为315.66 MHz，完成1次正余弦函数运算仅需6个时钟周期。相比于XILINX CORDIC IP，HD CORDIC算法处理时间减少了59.13％，LUT开销减少了55.74％，Register开销减少了80.24％，功耗降低了35.99％。

开源前处理软件到通用有限元求解器的网格文件转换方法研究

田卓, 丁嘉欣, 张常有, 邵云霞

2024, 46(12): 2109-2116. doi:

摘要 ( 93 )

PDF (1195KB) ( 148 ) 　　

有限元分析软件能够对产品进行数值仿真，减少实验次数，降低研发成本，缩短创新设计周期，是工业软件中最核心的部分之一。但是，我国95%以上用户使用国外商业有限元软件，使工业仿真软件求解器成为工业软件“卡脖子”的核心问题之一。其中，网格划分技术是有限元分析软件中的关键技术，它能够将有限元方法的计算区域实现空间离散，以进行后续的有限元求解。但是，目前有限元分析软件的研发主要集中在求解器，网格划分多采用商业软件或开源软件，开源网格划分软件的输出文件格式往往不具备通用性，无法实现与有限元求解器的兼容。因此，研究并实现了一种开源的前处理软件到通用有限元求解器的网格文件转换方法，分析并对比了网格文件和数值求解文件数据组织方式的不同，并实现了统一化、标准化。转换后的网格文件能够兼容主流的商业及开源有限元求解器，为工业仿真软件的自主化探索了可能之路。

Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用#br#

王强, 孙彦洁, 齐星云, 徐佳庆

2024, 46(12): 2117-2127. doi:

摘要 ( 59 )

PDF (1706KB) ( 172 ) 　　

Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一，具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率，成为亟待解决的问题。首先分析了非一致性访存架构的多样性，以及Bowtie 2在多种非一致性访存架构下内存访问拥塞和最后一级缓存命中率低的结构性瓶颈。然后，基于Bowtie 2在不同非一致性访存平台的表现特点，在复制索引、内存分配以及数据划分3个方面进行优化，提出了Bowtie 2-NUMA。最后，通过实验表明，Bowtie 2-NUMA面向不同计算平台，能够基于体系结构进行适应性优化，实现并行效率的提升。

研发类GPU集群任务数据集的构建及分析

罗婧, 叶志晟, 杨泽华, 傅天豪, 魏雄, 汪小林, 罗英伟,

2024, 46(12): 2128-2137. doi:

摘要 ( 105 )

PDF (1324KB) ( 176 ) 　　

近年来，随着深度学习模型训练需求增长，研究机构和企业通过搭建共享GPU集群来降低成本和提高效率。现有研究主要关注企业生产类GPU集群的任务调度和资源分配。针对研发类GPU集群鹏城云脑I，进行任务运行时关键指标的监控和数据采集，构建含任务细粒度时序资源使用信息的深度学习训练任务数据集——鹏城云脑I任务数据集。该数据集是首个面向研发类GPU集群公开数据集，揭示了研发类GPU集群中资源利用率低的现象，为研发类GPU集群高资源利用率的调度器设计提供依据和参考，推动任务调度和资源分配机制的研究。

面向深度学习作业的干扰感知在线调度算法研究

敬超, 闭玉申

2024, 46(12): 2138-2148. doi:

摘要 ( 94 )

PDF (993KB) ( 189 ) 　　

由于GPU可以加速深度学习作业的处理，许多研究人员通过提高GPU利用率来达到减少作业完成时间的目的。与传统的作业独占GPU资源来减少作业完成时间不同，考虑了多个作业共置的问题(即同一个GPU中同时执行多个作业能有效提高GPU利用率并减少作业完成时间)，提出了一种面向深度学习作业的干扰感知在线调度算法(OASIS)。该算法首先在作业共置的情况下，使用改进的机器学习方法构建了作业所需资源的预测模型。其次，为了计算作业间干扰值，设计了一种作业组合模型，通过模型计算的干扰值来主动修改作业调度策略以避免无效调度，达到减少作业完成时间的目的。最后，在真实环境中部署了实验，实验结果表明：提出的OASIS算法与经典的FCFS算法、MBP算法和SJF算法相比，不仅平均作业总体完成时间缩短了5.7%，而且平均能耗降低了4.0%，验证结果充分说明了该算法的有效性和优越性。

5G-AKA认证机制脆弱性分析与验证

韩晓璇, 周文安, 韩震

2024, 46(12): 2149-2157. doi:

摘要 ( 116 )

PDF (3181KB) ( 173 ) 　　

鉴权认证机制的安全性研究一直是移动通信领域重要的关注点，每一代移动通信标准都制定了不同的认证密钥协议（AKA）。随着5G物联网中接入终端类型和接入场景的多样化，3GPP制定了统一的用户安全接入认证机制5G-AKA，经调研发现该机制仍存在脆弱性。通过分析5G-AKA双向认证流程中的请求参数和响应内容，发现认证流程存在用户身份验证标识（SUPI）泄露的风险，设计了SUPI窃听攻击模型。同时，基于UERANSIM和open5gs测试平台设计了网络拓扑结构和实验场景，模拟信令流量并验证上述模型。

基于改进萤火虫算法和长短期记忆网络的恶意行为检测方法

沈凡凡, 汤星译, 张军, 徐超, 陈勇, 何炎祥

2024, 46(12): 2158-2170. doi:

摘要 ( 98 )

PDF (1192KB) ( 184 ) 　　

近年来,数据平台与系统的规模飞速扩张,性能快速提升，安全性能也随之越发重要。现有的基于深度学习的恶意行为检测方案缺少与模型契合的优化算法,导致模型缺乏自优化能力。提出了一种基于改进萤火虫算法与改进长短期记忆网络的恶意行为检测方法iFA-LSTM,该方法可以有效地进行恶意行为的二分类检测。通过UNSW-NB15数据集来验证所提出的方法,方法在单攻击二分类实验中的平均识别准确率达到了99.56%,且在混合攻击二分类实验中平均识别准确率也达到了98.79%,同时也充分证明了iFA的有效性。所提出的方法可以快速有效地进行恶意行为检测,非常有希望应用于恶意行为的安全监控和识别。

一种基于多区块链协作的分布式位置匿名方法

杨旭东, 李秋燕, 高岭, 刘鑫, 邓雅妮

2024, 46(12): 2171-2185. doi:

摘要 ( 77 )

PDF (2634KB) ( 187 ) 　　

近年来，围绕基于位置服务LBS过程中的隐私泄露问题，研究人员对基于位置匿名的隐私保护方法进行了深入的研究。然而，这些研究忽略了匿名协作过程中存在的性能与安全瓶颈问题和攻击者基于语义知识进行攻击导致匿名集合隐私泄露问题。为此，结合多区块链跨链协作与k-匿名的思想，提出了一种基于多区块链协作的分布式匿名位置隐私保护方法。为了解决集中式匿名导致的隐私泄露问题，首先基于私有区块链与公有区块链的跨链协作提出了一种匿名协作用户的选择方法；其次，为了确保匿名过程中的用户协作行为的可靠性以及跨链传递数据的正确性，设计了一种匿名协作共识机制；最后，为了解决个人相关语义被忽略导致的隐私泄露问题，结合差分隐私机制与语义多样熵的匿名位置选择方法，设计了一种匿名集合构造方法。在真实数据集上的实验表明，所提方法可以有效提高位置的语义隐私安全，并在隐私性与可用性方面优于现有方法。

基于优化特征堆叠与集成学习的车联网入侵检测模型

刘沛, 刘昌华, 林俏伶

2024, 46(12): 2186-2195. doi:

摘要 ( 89 )

PDF (2022KB) ( 164 ) 　　

随着车载网络复杂性的提高和车辆与外界连接方式多样性的丰富，车联网面临的网络安全风险大幅度上升。针对现有入侵检测的特征提取不充分、模型分类不够精确等问题，提出了一种基于特征堆叠与集成学习的车联网入侵检测模型。该模型通过将一维数据流量按照特征步进行切分，在第三维度上进行堆叠转化为图像，并使用VGG19模型提取特定类型的特征，Xception模型捕获通道内和通道间的信息，Inception模型处理复杂类别图像获取多尺度信息，3个模型集成CS-IDS模型。在2个开源的车联网数据集Car-Hacking和流量数据集CIC-IDS2017上测试了该模型，分别获得了99.97%和96.44%的F1分数，且该模型可在12 ms内完成单条流量的快速检测，表明了所提CS-IDS模型的有效性和可用性。

基于模板更新和重检测的长时目标跟踪研究

徐淑萍, 卫浩波, 孙洋洋, 万亚娟

2024, 46(12): 2196-2204. doi:

摘要 ( 108 )

PDF (1877KB) ( 192 ) 　　

为解决长时目标跟踪场景中由于遮挡、超出视野导致的目标频繁丢失与重现的问题，设计了一种基于模板更新和重检测的长时目标跟踪算法(LTUSiam)。首先，在跟踪器SiamRPN的基础上，引入三级级联的门控循环单元对目标状态进行判断，选择合适的时机自适应更新模板信息。其次，提出一种基于模板匹配的重检测算法，使用候选区域提取模块重定位目标位置和大小，使用评价得分序列对目标丢失的情况进行判断，以确定下一帧的跟踪状态。实验结果显示，LTUSiam在LaSOT数据集上的成功率和准确率分别达到了0.566和0.556，在VOT 2018_LT数据集上的F1值为0.644，表明其在处理目标丢失与重现问题时有更好的鲁棒性，有效地改善了长时跟踪的性能。

基于多尺度特征融合与背景抑制的MFFBSNet人群计数算法

赵佳彬, 徐慧英, 朱蓉, 陈滨, 王晓琳, 朱信忠

2024, 46(12): 2205-2214. doi:

摘要 ( 103 )

PDF (1868KB) ( 221 ) 　　

针对复杂场景中的密集人群尺度变化、分布不均匀、背景遮挡等问题，提出一种基于多尺度特征融合与背景抑制的MFFBSNet人群计数算法。以视觉几何组网络VGG-16的前13层作为网络前端部分，引入空洞空间卷积池化金字塔(ASPP)和基于轻量级金字塔切分注意力机制(PSA)构建多尺度特征融合模块，以解决密集人群尺度变化问题;在网络的中间部分加入空间注意力机制以及通道注意力机制对特征图进行校准，突出图像人头区域；网络后端部分使用可加大感受野且不丢失图像分辨率的空洞卷积生成背景分割注意力图，抑制图像中背景噪声，提升人群分布密度图的质量。在ShanghaiTech、UCF_CC_50及NWPU-Crowd 3个公开数据集上的实验结果表明，相较于MCNN、SwitchCNN、CSRNet等算法，提出的基于MFFBSNet的人群计数算法的计数准确度较高。

一种基于孪生网络的目标轮廓跟踪方法

李豪

2024, 46(12): 2215-2226. doi:

摘要 ( 78 )

PDF (4310KB) ( 209 ) 　　

准确的尺度估计是目标跟踪中的挑战，现有方法存在计算复杂度高、超参数多和精度低的问题。针对以上问题，提出一个利用目标轮廓进行跟踪的孪生分割网络，它由孪生子网络和轮廓分割网络2部分组成，其优点是不需要根据先验知识预先定义锚框，减少了超参数。在此基础上，实现一种基于多点回归的目标轮廓跟踪方法，该方法用区域分类与轮廓回归对目标跟踪建模，能够同时得到正矩形框、旋转矩形框和轮廓等多种目标状态。该方法的跟踪过程是：首先，利用孪生子网络估计目标的初始矩形框；其次，通过轮廓分割网络将初始矩形框的特征向量变形为目标轮廓；最后，根据目标轮廓拟合最终矩形框。在OTB-2015（Success=70%）、VOT-2020（EAO=52%）、TrackingNet（AUC=78.9%）和LaSOT（AUC=64.1%）数据集上的实验结果表明：与现有先进的目标跟踪方法相比，本文提出的跟踪方法具有较优的跟踪性能。

西夏文字的多层掩码识别方法

马金林, 闫琦, 马自萍

2024, 46(12): 2227-2238. doi:

摘要 ( 75 )

PDF (2179KB) ( 148 ) 　　

针对现有方法对模糊、残缺西夏文字识别能力较差的问题，提出西夏文字识别模型MMSFTR。首先，提出多层掩码学习策略，分层次提取字符关键特征，帮助模型更有效地理解西夏文字内部结构，提高对复杂西夏文字的特征描述能力。其次，设计多尺度特征融合模块，以提取更丰富的多尺度特征。然后，提出通道自适应注意力模块，更好地选择和关注特定通道的信息，并设计掩码注意力模块改善模型感知能力。最后，设计特征增强模块，对网络进行多层次特征优化，并进行深层次特征增强。MMSFTR通过4个模块的协同作业，使得模型达到了预期效果。实验结果显示：MMSFTR在TCD-E数据集上达到99.40%的识别准确率，有效提升了对模糊、残缺西夏文字的识别效果。

一种针对对话文本属性级情感信息抽取的词对关系建模方法

曾涛, 王晶晶, 张涵, 刘一丁

2024, 46(12): 2239-2251. doi:

摘要 ( 95 )

PDF (1647KB) ( 167 ) 　　

属性级情感分析旨在获取文本中包含的细粒度情感信息，因其应用广泛而备受关注。然而传统的属性级情感分析研究大多基于非交互场景下的普通评价文本，针对对话文本的交互式场景下属性级情感分析的研究工作则非常稀缺。基于此现状，提出了针对对话文本交互式场景下的属性级情感信息联合抽取任务，获取由目标属性、意见表达以及意见对应的情感极性构成的完整的细粒度情感信息三元组，旨在通过一个任务获取交互式对话中最后一条发言包含的完整细粒度情感信息。针对该任务设计了一种端到端的基于词对关系建模的抽取方法，对词对间关系进行建模后将对话文本映射成一个有向图，将解码过程转换为在有向图中寻找特定环结构的过程。为了提升词对关系建模的准确率，设计了一种新颖的模型结构，在构建词对关系表征时融合词对相对距离信息与对话轮次信息，并通过多粒度二维卷积加强词对间的信息交互。此外，设计了一种动态损失权重方法，有效缓解了对话文本中词对关系类别分布不平衡问题。实验结果显示，本文方法与选用的强基线方法对比，F1分数平均提升了7.70%，最高提升了15.05%。

矛盾体分离单元结果演绎方法及应用

曹锋, 谢燏, 易见兵, 李俊

2024, 46(12): 2252-2260. doi:

摘要 ( 61 )

PDF (768KB) ( 135 ) 　　

一阶逻辑自动定理证明是人工智能领域重要的研究内容。为提高单元结果归结演绎效率，提出了一种新的基于多元、动态、协同的单元结果演绎方法，称为矛盾体分离单元结果演绎方法，并详细地给出了其演绎定义、演绎方法、演绎的优势分析及算法实现；提出的演绎方法允许多个子句同时参与演绎，且允许多个非单元子句参与1次单元结果演绎，能较好地处理长子句；提出的演绎算法能使用策略选定较优的子句和动态设定变元合一的复杂度，并通过回溯机制优化搜索的演绎路径。以近2年国际一阶逻辑自动定理证明器竞赛例（分别为500个）和TPTP问题库中难度系数为1的问题作为测试对象，加入了矛盾体分离单元结果演绎算法的Eprover和原始Eprover相比分别多证明了10个定理，分别能证明Eprover无法证明的17个定理和13个定理，能证明出9个其他所有证明器都无法证明难度系数为1的定理。实验结果表明，提出的矛盾体分离单元结果演绎方法能有效提高一阶逻辑自动定理证明的效率。

融合注意力机制的解耦对比聚类

刘合兵, 孔玉杰, 席磊, 尚俊平

2024, 46(12): 2261-2270. doi:

摘要 ( 87 )

PDF (1548KB) ( 163 ) 　　

为解决对比聚类正负样本之间负正耦合的问题，提出融合注意力机制的解耦对比聚类DCCIAM方法。首先,使用数据增强手段将图像数据进行扩充得到正样本对和负样本对；其次,在骨干网络中加入卷积注意力模块CBAM使网络更加关注目标特征，并将扩充后的图像数据输入骨干网络得到特征；再次，将特征经过神经网络投影头，分别计算实例损失和聚类损失；最后，联合实例损失和聚类损失进行特征表示及聚类分配。为验证DCCIAM方法的有效性，在公共图像数据集CIFAR-10、STL-10和ImageNet-10上进行实验，聚类准确率分别达到了80.2%，77.0%和90.4%。结果表明，融合注意力机制的解耦对比聚类方法在图像聚类任务中的性能表现突出。

基于通道筛选和自适应熵阈值的眼电伪迹自动去除算法

李易霖, 周彪

2024, 46(12): 2271-2280. doi:

摘要 ( 91 )

PDF (1894KB) ( 184 ) 　　

为了提高脑电信号中眼电伪迹去除的效果，提出一种结合快速独立成分分析（FastICA）和启发式小波阈值去噪（HWT）算法，并以模糊熵为眼电伪迹判别标准的眼电伪迹自动去除算法。首先，采用通道筛选算法对原始脑电信号进行降维处理，以提高计算效率；随后利用FastICA算法将筛选后的脑电信号分解为独立分量；其次，通过模糊熵分析识别含有眼电伪迹的独立分量；再次，采用HWT算法剔除该分量的眼电伪迹成分，保留有用的脑电信号；最后，进行逆小波变换和逆ICA重构，得到不含伪迹的脑电信号。通过在数据集BCI Competition IV上的实验验证了该算法。结果表明，相较于现有算法，所提算法在多个性能指标上均表现出色，信噪比（SNR）相较于现有基于峰度的伪迹识别算法提高约12%。

当期目录

作者中心

审稿中心

在线期刊