计算机工程与科学

2024年第7期目录

2024, 46(7): 0-0. doi:

摘要 ( 418 )

PDF (249KB) ( 480 ) 　　

NM-SpMM：面向国产异构向量处理器的半结构化稀疏矩阵乘算法

姜晶菲, 何源宏, 许金伟, 许诗瑶, 钱希福

2024, 46(7): 1141-1150. doi:

摘要 ( 986 )

PDF (1262KB) ( 1209 ) 　　

深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果，由于智能应用处理数据规模的增长和大模型的快速发展，对深度神经网络的推理性能要求越来越高，N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性，提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA，避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码，NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明，相较于稠密矩阵乘，NM-SpMM能获得1.73~21.00倍的加速，相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU，能获得0.04~1.04倍的加速。

基于MLIR的数据流模型

李金熹, 尹首一, 魏少军, 胡杨

2024, 46(7): 1151-1157. doi:

摘要 ( 800 )

PDF (601KB) ( 1140 ) 　　

在冯诺依曼架构下，指令集的使用让软硬件得以解耦并各自飞速发展。然而，近年来并行多核架构加速器的热潮为冯诺依曼架构下的顺序编程模型带来了挑战。在顺序编程模型下设计而成的指令集缺乏对并行硬件的抽象，因此仅仅使用指令集已不能完全完成软硬件的解耦。人工智能软件编译栈领域需要新的编程模型，以对接顺序执行的编程平台和并行多核的硬件后端，并进一步探索并行硬件提供的优化机会。使用数据流模型作为编程模型，为顺序执行程序和并行硬件指令集的对接过程提供通用抽象，在指令集的基础上进一步实现软件前端与硬件后端的解耦。为确保项目的可复用性，将数据流模型以codelet dialect的形式实现在谷歌提出的编译器框架MLIR上。MLIR致力于整合碎片化的编译器生态，提高前后端对接流程的可复用性，在MLIR上实现的数据流模型将进一步提升MLIR系统的可复用性。

MiniBranRAP：极小化分支判断数的AMG粗网格矩阵计算并行算法

杜皓, 毛润彰, 邓蕴桐, 黄思路, 徐小文

2024, 46(7): 1158-1166. doi:

摘要 ( 637 )

PDF (1586KB) ( 971 ) 　　

代数多重网格（AMG）是科学工程计算与工业仿真领域求解大规模稀疏线性代数方程组最常用的算法之一。在启动（Setup）阶段的每个网格层，AMG需要基于限制算子R、当前细网格层矩阵A和插值算子P的稀疏矩阵乘积来计算粗网格矩阵Ac=RAP，该过程是AMG并行性能的主要瓶颈。首先发现了主流AMG解法器中RAP并行算法由于分支判断的平方复杂度导致的性能瓶颈，并结合稀疏矩阵CSR的行主序特点，提出了具有线性复杂度分支判断数的RAP并行算法MiniBranRAP。该算法集成到JXPAMG解法器中，并通过实际应用算例验证了算法的有效性。测试结果表明，对于6个来自实际应用的典型算例，相对于Hypre最新版本的BoomerAMG解法器，基于MiniBranRAP的JXPAMG解法器在28个进程上将Setup阶段的计算效率平均加速3.3倍、最高加速9.3倍。

面向高密度闪存的内存页大小探索

俞丁翠, 罗龙飞, 宋云鹏, 李文通, 石亮

2024, 46(7): 1167-1174. doi:

摘要 ( 888 )

PDF (981KB) ( 760 ) 　　

近年来，固态硬盘SSD向高带宽、大容量的方向飞速发展。为了扩大SSD的容量，闪存页面从4 KB增长到了16 KB。然而，操作系统依然以4 KB内存页为粒度向SSD下发读写请求,导致应用难以充分利用SSD的高带宽。增加内存页面的大小，以使操作系统下发的I/O请求和SSD读写闪存的粒度统一是可能可行的解决方案。将首次深入探索内存页大小对系统I/O性能与SSD寿命的影响。具体来说，将内存页大小设置为16 KB，运行测试程序并将实验结果与4 KB内存页进行比较。得出以下结论：（1）16 KB内存页具有更好的读性能；（2）应用的写粒度决定了16 KB内存页的性能；（3）16 KB内存页放大了页内无效数据对SSD寿命的影响。

一种不规则稀疏矩阵的SpMV方法

施禹, 董攀, 张利军

2024, 46(7): 1175-1184. doi:

摘要 ( 1316 )

PDF (1108KB) ( 1086 ) 　　

稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一，在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵，而对于不规则形状稀疏矩阵（行数与列数不等）的研究仍存在空缺，值得进一步深入探讨。相比于行列相等的稀疏矩阵，不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此，针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型，分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作：(1)基于常用稀疏矩阵CSR存储格式，提出新型RCSR存储格式，其针对CSR存储格式中一个制约性能的数组进行了变换和压缩，使得SpMV更加高效；(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试，在规则稀疏矩阵的情况下，通过采用RCSR存储格式和SIMD加速指令集，以GFLOPS为性能指标，实现了平均83.35%的性能提升；在不规则稀疏矩阵的情况下，性能提升与行列比相关，在行列不对等加剧时，具有更为明显的优化效果。

基于RISC-V的超标量处理器的ROB压缩方法

王洁, 付丹阳,

2024, 46(7): 1185-1192. doi:

摘要 ( 907 )

PDF (3984KB) ( 976 ) 　　

RISC-V指令集具有灵活可扩展的优势，向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令，如果每条微指令都占用一项重排序缓存（ROB），会存在一定的信息冗余，并且会减少CPU中并行执行的指令（in-flight指令）数量，影响处理器性能。基于指令与微指令在ROB中的存储解耦方法，使用一个新的队列（RAB）存储每条微指令的目的寄存器的重命名映射关系等信息，每项ROB只存储其对应指令拆分的微指令的公共信息，ROB与RAB分别控制指令与微指令的提交与回滚，减少了存储信息冗余，缓解了由向量指令拆分的微指令过多导致的in-flight指令数量减少问题。在上述方法的基础上，同时实现了标量指令的ROB压缩，在ROB项数不变的情况下，增加了in-flight指令的最大数量。最终的仿真结果表明，此方法有效提高了处理器性能。

基于分区层次图的海量高维数据学习索引构建方法

华悦琳, 周晓磊, 范强, 王芳潇, 严浩,

2024, 46(7): 1193-1201. doi:

摘要 ( 739 )

PDF (971KB) ( 960 ) 　　

学习索引是破解海量高维数据近似最近邻搜索问题的关键。然而，现有学习索引技术结果仅局限于单个分区中，且依赖于近邻图的构建。随着数据维度和规模的增长，索引难以对分区边界数据进行精确判断，并且构建时间复杂度增大，可扩展性难以保障。针对上述问题，提出了基于分区层次图的学习索引方法PBO-HNSW。该方法对分区边界数据进行重新分配，并行构建分布式图索引结构，从而有效应对近似最近邻搜索问题所面临的挑战。实验结果表明，该方法能够在百万级海量高维数据上实现毫秒级的索引构建。当召回率为0.93时，PBO-HNSW方法构建时间仅为基线方法的36.4%。

面向56 Gb/s高速SerDes接收机DSP设计

胡小月, 王强, 吕方旭, 许超龙, 张锦

2024, 46(7): 1202-1209. doi:

摘要 ( 2051 )

PDF (1841KB) ( 1706 ) 　　

高速接口芯片是高性能互连网络通信中的一款重要IP，针对56 Gb/s四脉冲幅度调制信号在高性能互连网络背板通信中，由于传输距离长信道衰减严重导致误码率高的问题，提出一种面向56 Gb/s高速Serdes接收机DSP设计。该DSP采用64路并行结构，通过16抽头前向反馈均衡器，以及1抽头预判决反馈均衡器对接收端数字化后的信号进行处理；采用基于K-均值聚类算法生成动态变化的判决电平并结合最小均方误差算法，能够处理15~35 dB不同信道衰减下的均衡问题。为了验证算法的性能，还搭建了一个基于模拟前端芯片和现场可编程门阵列的实验验证平台。实验结果表明，在信道衰减为15~35 dB@14 GHz，速率为 56 Gb/s的条件下，误码率均小于5e-10。

面向服务器无感计算的模型推理服务切换方法研究

温鑫, 曾焘, 李春波, 徐子晨

2024, 46(7): 1210-1217. doi:

摘要 ( 849 )

PDF (1730KB) ( 1025 ) 　　

模型推理服务正随着大模型技术的发展被广泛应用，为模型推理服务构建稳定可靠的体系结构支撑逐渐成为云服务商关注的焦点。服务器无感计算是一种资源粒度细、抽象程度高的云服务计算范式，具有按需计费、弹性扩展等优势，能够有效提高模型推理服务的计算效率。但是，模型推理服务工作流呈现出多阶段的特点，独立的服务器无感计算框架难以确保模型推理服务工作流各阶段的最优执行。因此，如何利用不同服务器无感计算框架的性能特征，实现模型推理服务工作流各阶段的在线切换，缩短整体工作流的执行时间，是亟待解决的关键问题。讨论模型推理服务在不同服务器无感计算框架上的切换问题。首先，使用预训练模型构建模型推理服务函数，得出异构服务器无感计算框架的性能特征；其次，采用机器学习技术构建二分类模型，结合异构服务器无感计算框架的性能特征，实现模型推理服务在线切换框架原型；最后，搭建测试平台，生成模型推理服务工作流，完成在线切换框架原型的性能评估。初步实验结果表明，在线切换框架原型与独立的服务器无感计算框架相比，最大可缩短模型推理服务工作流57%的执行时间。

一种基于随机森林分类器构建高性能应用程序性能分析模型的方法

柴旭清, 乔一航, 范黎林,

2024, 46(7): 1218-1228. doi:

摘要 ( 757 )

PDF (2017KB) ( 830 ) 　　

高性能应用程序的传统性能分析方法因分析过程存在额外开销和分析结果不准确等缺陷，致使用户耗费更多的时间和领域知识。为解决以上问题，将程序的性能分析问题转化成高维特征下非平衡小样本数据集的多分类问题，采集500条包含程序运行时进程切换次数、内存利用率、磁盘I/O负载等7种性能数据，经PCA降维等数据预处理后，使用随机森林分类器训练程序性能问题分析模型。实验验证该模型可识别出内存利用率过高、磁盘I/O负载过重等5类性能问题。为评估模型的指导有效性，分别采集HotSpot3D程序和LU-Decomposition程序运行时产生的性能数据，并根据模型输出结果指导，分别基于运行级和编译级优化2个验证程序运行。实验结果表明，所提方法可有效指导优化程序的运行性能，2个验证程序的加速比分别为1.056和5.657。

基于因果关系的反取证擦除技术检测模型

杜放, 焦健, 焦立博

2024, 46(7): 1229-1236. doi:

摘要 ( 1001 )

PDF (713KB) ( 1266 ) 　　

在现代网络攻击中，攻击者常常利用各种反取证技术来掩盖他们的踪迹。反取证技术中的数据擦除的危害性较大，攻击者可以使用这种攻击来删除或破坏数据，从而达到销毁攻击证据、扰乱取证过程的目的。由于擦除活动自身的隐蔽性使其很难被察觉，因此利用基于因果关系的溯源技术，提出了一种反擦除数据检测模型。模型根据警报信息生成警报溯源图，并通过攻击行为特征为图中的每条路径计算异常分数，通过进一步筛选和聚合计算，最终生成攻击路径。实验结果表明，该模型可以较好地实现反取证擦除活动的溯源跟踪，并能提高反数据擦除攻击活动和正常活动之间的辨识度。

基于异步分层联邦学习的数据异质性处理方法研究

郭昌昊, 唐湘云, 翁彧

2024, 46(7): 1237-1244. doi:

摘要 ( 1272 )

PDF (1083KB) ( 1350 ) 　　

在物联网设备遍布的时代，时刻都在产生大量数据，数据分布和数据量各不相同，因此数据异质性普遍存在。针对物联网环境中智能设备的联邦学习挑战，传统联邦学习的同步机制解决数据异质性（NON-IID）问题并不理想，且面临着单点故障和维护全局时钟的复杂性问题，而异步机制则可能带来额外的通信开销和NON-IID数据分布导致的过时性问题。分层联邦学习结合异步机制在应对数据异质性的问题时更加灵活，为此，提出了一种基于分层联邦学习的异步分层联邦学习方法。首先，使用BIRCH算法分析物联网中各节点的数据分布并进行簇的划分；然后，对簇中的数据进行拆分与验证，目的是找到数据质量高的节点，然后将数据质量高的簇中的节点打散，重组到其他数据质量低的簇中，形成新的簇；最后，进行簇内聚合和全局聚合的两阶段模型训练。此外，基于MNIST数据集，对提出的方法进行了评估。结果表明，与经典方法相比，所提方法在NON-IID数据集上收敛速度提高，而且在模型精度上提高了15%以上。

基于改进北方苍鹰优化随机配置网络的网络流量预测模型

王堃, 李少波, 何玲, 周鹏

2024, 46(7): 1245-1255. doi:

摘要 ( 905 )

PDF (1506KB) ( 793 ) 　　

网络流量预测作为一种关键技术，能帮助实现网络资源的合理分配、优化网络性能以及提供高效的网络服务。随着网络环境的演变和发展，网络流量的多样性和复杂性增加，为了提高网络流量的预测精度，提出了一种基于改进北方苍鹰优化随机配置网络(CNGO-SCN)的网络流量预测模型。随机配置网络作为一种具有监督机制的增量式模型，在解决大规模数据回归和预测问题方面具有良好的优势。但是，一些超参数的选择影响了随机配置网络的准确性。针对这一问题，利用北方苍鹰算法对影响随机配置网络性能的正则化参数和比例因子进行优化，得到最佳数值。而北方苍鹰算法由于初始种群的随机分布导致种群个体质量不佳，因此引入混沌逻辑映射提升初始解的质量。将优化后的模型应用于英国学术网、欧洲某城市核心网网络流量数据集和合作企业搭建的网络协同制造云平台交换机接口的真实流量数据集，并与多种神经网络模型进行对比，以验证所提模型的网络流量预测能力。实验结果表明，该模型对比其他神经网络模型具有更高的预测精度，在实际应用场景中处理复杂数据时具备更加优秀的预测能力，该模型的预测误差下降了0.9%~99.7%。

基于度量学习的跨摄像头运动目标重定位方法研究

康宇, 史珂豪, 陈佳艺, 曹洋, 许镇义,

2024, 46(7): 1256-1268. doi:

摘要 ( 540 )

PDF (2473KB) ( 797 ) 　　

近年来，我国柴油车尾气排放污染日趋严重。为了改善大气环境，需要对排放黑烟的柴油车进行监测。然而，在城市交通道路场景下，黑烟柴油车检测经常由于车辆间相互遮挡等因素，难以通过后向视频确定黑烟柴油车身份。此外，柴油车重定位相关数据的严重不足导致数据局限性较大。针对以上问题，提出了一种跨摄像头场景下的黑烟柴油车重定位方法。该方法通过引入IBN模块构建特征提取网络，提升网络模型对柴油车图像外观变化的适应性。然后，设计基于豪斯多夫距离度量学习的损失函数对特征差异性进行度量，在优化过程中增加类间距离并降低遮挡样本的影响。最后，构建了多种场景下的柴油车重定位基准数据集，并在该数据集上对所提出的方法进行实验。实验结果表明，所提出的方法取得了83.79%的相对精度，具有较高准确率。

改进YOLOv7网络在低空遥感图像目标检测中的应用

张永智, 何可人, 戈珏

2024, 46(7): 1269-1277. doi:

摘要 ( 705 )

PDF (1304KB) ( 888 ) 　　

针对低空遥感图像目标检测存在的尺度微小、背景复杂多变和计算资源有限等问题，提出了一种改进YOLOv7网络的低空遥感图像目标检测网络SimAM_YOLOv7。首先，基于张量火车分解，最小化冗余参数；其次，引入无参数的注意力机制，提高网络对目标的聚焦能力；最后，利用高效IoU(EIoU)优化定位损失，减小目标框与先验框的位置偏移，基于Focal Loss改进分类损失，解决正负样本的失衡问题。在真实低空遥感数据集上进行实验，在YOLOv7的基准下，所提出的网络在参数量减少3.27M时，mAP50指标提高了4.63%，mAP50:95指标提高了3.94%，充分验证了所提网络的有效性和优越性。

基于多尺度特征与互监督的拥挤行人检测

肖振久, 李思琦, 曲海成

2024, 46(7): 1278-1285. doi:

摘要 ( 598 )

PDF (1320KB) ( 780 ) 　　

针对拥挤场景中，行人漏检率高、准确率低的问题，提出一种基于多尺度特征与互监督的拥挤行人检测网络。为了有效提取复杂场景中的行人特征信息，用PANet金字塔网络与混合空洞卷积相结合的网络提取特征信息。然后，设计了一种行人头部-全身互监督检测网络分别进行头部和全身检测，利用头部预测框和全身预测框的互监督获得更加准确的行人检测结果。所提出的网络在数据集CrowdHuman上取得了13.5%的MR-2性能，相较于YOLOv5网络提升了3.6%，同时AP提升了3.5%；在CityPersons数据集上取得了48.2%的MR-2性能，相较于YOLOv5网络提升了2.3%，同时AP提升了2.8%。实验结果表明，提出的网络在人群拥挤的密集场景中具有良好的检测效果。

一次性条件下的三支序列模式挖掘

杨仕琦, 武优西, 耿萌, 李艳

2024, 46(7): 1286-1295. doi:

摘要 ( 635 )

PDF (848KB) ( 778 ) 　　

一次性条件下的序列模式挖掘旨在从序列数据中挖掘出带有间隙约束的重复序列模式。然而，现有方法不考虑用户的兴趣度，将序列中的每个字符视作同等重要，导致许多用户不感兴趣的冗余模式被发现。为了解决这个问题，将三支决策思想引入序列模式挖掘领域，提出了一次性条件下的三支序列模式挖掘问题及其求解算法。在支持度计算方面，该算法基于深度优先搜索和回溯的策略，结合三支模式的特点以高效求解模式支持度。在候选模式生成方面，该算法采用模式连接策略缩减候选模式数量。此外，该算法还采用了并行化方案充分利用现代处理器的多核性能，提高算法的挖掘效率。最后，实验结果验证了研究一次性条件下的三支序列模式挖掘问题的意义和算法的高效性。

命名实体识别研究综述

丁建平, 李卫军, 刘雪洋, 陈旭

2024, 46(7): 1296-1310. doi:

摘要 ( 2795 )

PDF (946KB) ( 2087 ) 　　

命名实体识别作为自然语言处理中的一项核心任务，在信息抽取、问答系统、机器翻译等方面应用广泛。首先，对基于规则和词典、基于统计机器学习的方法进行了描述和总结。其次，综述了基于深度学习中有监督、远程监督和Transformer的命名实体识别模型，特别对近年来在自然语言处理领域中热门的Transformer架构及其相关模型进行了阐述，包括基于Transformer的掩码语言建模和自回归语言建模，如BERT、T5和GPT等。再次，简要探讨了应用于命名实体识别中基于数据的迁移学习和基于模型的迁移学习方法。最后，总结了命名实体识别任务面临的挑战和未来的发展趋势。

RIB-NER：基于跨度的中文命名实体识别模型

田红鹏, 吴璟玮

2024, 46(7): 1311-1320. doi:

摘要 ( 2246 )

PDF (819KB) ( 1095 ) 　　

命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言，在许多方面具有独特性。传统上，中文命名实体识别任务模型使用序列标记机制，该机制需要条件随机场捕获标签的依赖性，然而，这种方法容易出现标签的错误分类。针对这个问题，提出基于跨度的命名实体识别模型RIB-NER。首先，以RoBERTa-wwm-ext作为模型嵌入层，提供字符级嵌入，以获得更多的上下文语义信息和词汇信息。其次，利用IDCNN的并行卷积核来增强词之间的位置信息，从而使词与词之间联系更加紧密。同时，在模型中融合BiLSTM网络来获取上下文信息。最后，采用双仿射模型对句子中的开始标记和结束标记评分，使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明，RIB-NER能够较为准确地识别实体边界，并分别获得了95.11%和73.94%的F1值。与传统深度学习相比，有更好的识别效果。

基于BERT字句向量与差异注意力的短文本语义匹配策略

王钦晨, 段利国, 王君山, 张昊妍, 郜浩

2024, 46(7): 1321-1330. doi:

摘要 ( 942 )

PDF (1091KB) ( 1355 ) 　　

短文本语义匹配是自然语言处理领域中的一个核心问题，可广泛应用于自动问答、搜索引擎等领域。过去的工作大多只考虑文本之间的相似部分，忽略了文本之间的差异部分，从而使模型无法充分利用到决定文本之间是否匹配的关键信息。针对上述问题，提出一种基于BERT字句向量与差异注意力的短文本语义匹配策略，利用BERT对句子对进行向量化表示，使用BiLSTM并引入多头差异注意力机制获取当前字向量与文本全局语义信息之间表征意图差异的注意力权重，结合一维卷积神经网络对句子对的语义特征向量进行降维，最后拼接字句向量并送入全连接层计算出2个句子之间的语义匹配度。通过在LCQMC和BQ Corpus数据集上的实验表明，该策略可以有效提取文本语义差异信息，从而使模型表现出更好的效果。

当期目录

作者中心

审稿中心

在线期刊