计算机工程与科学

2024年第5期目录

2024, 46(05): 0-0. doi:

摘要 ( 106 )

PDF (252KB) ( 175 ) 　　

基于NUMA云计算架构的多资源分配可信拍卖机制

徐嘉, 张骥先, 王喆民, 刘林杰

2024, 46(05): 761-775. doi:

摘要 ( 195 )

PDF (1902KB) ( 534 ) 　　

随着互联网不断发展，云计算和虚拟化等技术广泛投入使用，设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配，是当前云计算领域的研究重点之一。同时，随着服务器规模不断扩展，诸多主流数据中心的服务器正在升级为非统一性内存访问NUMA架构，其主要特征为，每台服务器可由多个计算节点构成，每个节点包含若干处理器和存储器，既可作为独立计算单元，也可以相互连通访问。但是，当前的研究主要着眼于传统的统一性内存访问架构，无法适应NUMA架构下的应用场景。因此，提出了一种适用于NUMA架构下的多资源可信拍卖机制，以虚拟机的形式进行多种资源的组合分配。具体而言，在资源分配问题中，提出一种单调启发式分配算法，考虑了NUMA架构下的部署约束和资源优势密度等因素，有效提升了社会福利。在价格支付问题中，使用二分法设计一种符合关键价格理论的定价支付算法，从而保证机制的可信特征。经过实验测试，该机制在社会福利、用户支付费用和资源利用率等方面，整体性能达到最优解的96%左右。

EMRI-Tree：面向多分辨率可视化的层次式数据结构

钟权, 陈志广, 高蓝光

2024, 46(05): 776-784. doi:

摘要 ( 105 )

PDF (1110KB) ( 458 ) 　　

大规模科学数据的可视化要求极高的数据传输带宽和大量的内存，实现对可视化数据的高效处理是一个巨大的挑战。为了提高科学可视化的效率，最常见且直接的办法是减少需要处理的数据量。通过设计一种新的数据结构EMRI-Tree以及一种可行且灵活的渲染流程，提出了一种新的大规模数据量可视化方案。该方案的特点可以总结如下：首先，所提出的EMRI-Tree支持对大型3D模型进行高效的数据查询和感兴趣区域（ROI）数据获取，从而显著降低内存占用；其次，EMRI-Tree中不同分辨率级别的数据块以可变长度索引的形式存储在键值（KV）存储系统中，提高了存储的可扩展性和读取的并发性；最后，提出了一种基于射线行走的渐进式渲染预取方案，可以在交互时渲染出更精确的模型。综合上述优化方法，该方案可在内存开销有限的情况下，有效促进大规模高分辨率数据的可视化。通过使用80 GB的合成数据进行了10次模拟读取测试来评估方案效果，实验结果表明，该方案具有 2 000+QPS（每秒查询次数）和内存消耗线性增长的特点，是一种稳健且节省内存的方案。

基于蜂鸟E203的多级动态分支预测器

魏一, 杨智杰, 铁俊波, 石伟, 周理, 王耀, 王蕾, 徐炜遐

2024, 46(05): 785-793. doi:

摘要 ( 311 )

PDF (1390KB) ( 600 ) 　　

近年来，以蜂鸟E203为代表的开源RISC-V微处理器由于功耗低、性能好等优势，受到了学术界和工业界的广泛关注和应用。为提高微处理器性能，降低分支指令造成的流水线停顿，指令分支预测技术成为现代微处理器中广泛应用的重要技术之一。然而，蜂鸟E203现采用的分支预测器是轻量级的静态分支预测器，面临分支预测准确率较低的挑战。由于使用预测准确率较高的动态分支预测器，可以进一步降低由于预测错误导致的重定向取指所产生的开销，因此，针对上述挑战，在原微架构的基础上探索了多种动态分支预测器的实现，提高了分支预测精度并且兼顾了资源开销。实验结果表明，多种动态分支预测器中获得最优结果的是使用静态分支预测结合基于分支历史寄存器BHR的自适应动态分支预测器，在Dhrystone基准测试程序上其分支预测精度可从原来的84.6%最高提升至94.8%，分数从原来的1.296 463提高到1.314 418，在Coremark基准测试程序上其分支预测精度可从原来的67%提升至78.7%，分数从原来的2.120 000提升至2.138 008。

CCGA器件的制备与高精度组装技术

李留辉, 王亮, 杨春燕, 陈轶龙, 陈鹏

2024, 46(05): 794-800. doi:

摘要 ( 175 )

PDF (1671KB) ( 562 ) 　　

CCGA封装器件具有良好的抗热膨胀失配等性能，在很多高可靠领域有广泛应用。针对CCGA封装器件的制备和高精度组装问题，开展了陶瓷管壳制备、高精度植柱工装设计、焊膏涂覆和器件植柱等研究。采用高温共烧陶瓷技术制备了2种带有菊花链的CCGA陶瓷管壳，可用于复杂链路的灵活设计。设计并加工了厚度为1.6 mm、开孔直径为0.54 mm的高精度植柱工装。对比丝网印刷和焊膏喷印方法，使用焊膏喷印法优化参数，提高了焊膏的体积精度，相对偏差小于10%。制备了高精度植柱样件，焊柱倾斜度小于1°，共面度小于0.1 mm，位置度优于±0.02 mm。该方法可有效提高CCGA器件的植柱精度和焊柱对称性，且有助于保证后续板级焊接的精度与可靠性。

基于异常保持的弱监督学习网络入侵检测模型

谭郁松, 王伟, 蹇松雷, 易超雄

2024, 46(05): 801-809. doi:

摘要 ( 169 )

PDF (1556KB) ( 435 ) 　　

网络入侵检测系统对维护网络安全至关重要，目前针对只有较少异常标记网络数据的入侵检测场景的研究较少。基于数据的异常保持性，设计了基于异常保持的弱监督学习网络入侵检测模型WIDS-APL，该检测模型包含数据转换层、表征学习层、转换分类层和异常判别层4部分，利用一组可学习的编码器将样本映射到不同区域并压缩到超球体，利用异常样本的标签信息学习正常样本和异常样本的分类界限，得到样本的异常分数。在4个数据集上的测试结果表明了该模型的有效性和鲁棒性，相比4个主流算法，在 AUC-ROC值上分别提升了4.80%，5.96%，1.58%和1.73%，在AUC-PR性能上分别提升了15.03%，2.95%，4.71%和9.23%。

一种面向低功耗移动端到端系统的延迟推送同步策略

赵悦, 周桐庆, 曾晖, 蔡志平, 肖侬

2024, 46(05): 810-817. doi:

摘要 ( 102 )

PDF (684KB) ( 406 ) 　　

互联网技术的快速发展使得移动设备在人们生活中发挥了更多的作用。一个用户可能拥有多台设备，以满足办公、社交和娱乐等多种需要。现实应用中，同一用户多台设备间也面临着许多数据同步需求，来支持跨设备访问时的分布式应用（例如，跨设备视频续播）。然而，目前针对多个端到端的数据同步的研究较少。因此，提出了一种适用于用户多台移动设备间应用同步的数据推送策略PAD，该策略采取差异化方式对待活跃设备和睡眠设备，以灵活延迟开启睡眠设备发送数据副本。延迟决策基于AIMD的动态自适应调整方法和面向应用访问频率的调度增强机制，适配用户使用习惯自适应地推送同步。实验结果表明，相比于无差别推送同步方案，PAD推送策略可以显著降低数据同步对设备的开启次数，同时保证较低的数据访问错误率，实现一致性和功耗的平衡。

SRv4：面向IPv4的段路由数据面协议设计及实现

原玉磊, 赵宝康, 吕高锋

2024, 46(05): 818-825. doi:

摘要 ( 324 )

PDF (1046KB) ( 473 ) 　　

针对SRv6技术报文头过长导致的承载效率低且无法在IPv4网络中部署的缺点，提出一种面向IPv4网络的段路由技术SRv4。设计了SRv4的报文头格式以及在IPv4网络中的报文封装格式；设计了SRv4的报文处理指令和报文转发流程；SRv4兼容IPv4协议和现有IPv4网络设备，可在IPv4网络中增量部署；与SRv6相比，SRv4的SID长度减小了75%，承载效率更高。利用XDP技术在Linux内核中开发了SRv4模块，以验证SRv4设计的可行性，利用服务器搭建网络环境对SRv4模块的功能、性能和稳定性进行测试。测试结果表明，SRv4模块段路由功能正常，可稳定运行。

基于双层注意力和深度自编码器的时间序列异常检测模型

尹春勇, 赵峰

2024, 46(05): 826-835. doi:

摘要 ( 326 )

PDF (1203KB) ( 671 ) 　　

目前时间序列通常具有弱周期性以及高度复杂的相关性特征，传统的时间序列异常检测方法难以检测此类异常。针对这一问题，提出了一种新的无监督时间序列异常检测模型（DA-CBG-AE）。首先，使用新型滑动窗口方法，针对时间序列周期性设置滑动窗口大小；其次，采用卷积神经网络提取时间序列高维度空间特征；然后，提出具有堆叠式Dropout双向门循环单元网络作为自编码器的基本结构，从而捕捉时间序列的相关性特征；最后，引入双层注意力机制，进一步提取特征，选择更加关键的时间序列，从而提高异常检测准确率。为了验证该模型的有效性，将DA-CBG-AE与6种基准模型在8个数据集上进行比较。最终的实验结果表明，DA-CBG-AE获得了最优的F1值（0.863），并且其检测性能相比最新的基准模型Tad-GAN高出25.25%。

类别特征约束的多目标域表情识别方法

范琪, 王善敏, 刘成广, 刘青山

2024, 46(05): 836-845. doi:

摘要 ( 163 )

PDF (825KB) ( 403 ) 　　

表情识别FER方法通常会受到采集环境和受试者区域、种族等因素的影响。为了提升FER方法的泛化性能，无监督的域自适应表情识别方法UDA-FER成为了研究热点。现有的UDA-FER方法普遍存在2个问题：(1) 仅关注对目标域的识别率，导致方法从源域迁移至目标域后，对源域的识别率急剧下降；(2) 仅研究基于单个目标域的UDA-FER方法，将现有方法直接应用于多个目标域会导致方法识别率骤降。为解决上述问题，提出了一种类别特征约束的多目标域表情识别方法MTD-FER，实现FER向多个目标域的连续迁移。为了保持对源域的识别率并提高对多个目标域的识别率，MTD-FER 设计了类别自适应的伪标签标记CAPL模块和类别特征约束CWFC模块，挑选目标域高质量的样本标记为伪标签，并对齐各个域同类样本的特征，缓解连续迁移导致的灾难性遗忘问题。以RAF-DB为源域，FER-2013和ExpW为目标域，进行大量的实验，证明了MTD-FER的有效性。实验结果表明，与基准方法相比，MTD-FER在多次迁移后，源域识别率提升6.36%，与迁移之前基本持平；在各个目标域性能均有所提升，其中FER-2013性能提升了27.33%，ExpW性能提升了3.03%。

ELPVO:基于I/O流水优化的超低功耗视觉里程计

赵千贺, 王锐,

2024, 46(05): 846-851. doi:

摘要 ( 192 )

PDF (1127KB) ( 320 ) 　　

视觉里程计赋予了机器人自主定位与构建环境地图的能力，被广泛应用在各类无人设备上。视觉里程计涉及大量的图像处理计算，但其部署平台多数仅具备极为有限的计算资源，限制了其使用范围。针对现有低功耗视觉里程计存在的I/O瓶颈，提出一种面向STM32F7嵌入式平台的基于RGB-D相机的高速低功耗视觉里程计ELPVO。ELPVO充分考虑STM32F7平台的硬件资源，通过DMA传输提高处理器使用效率，进而在算法精度没有变化的情况下提升处理速度。在搭载216 MHz ARM Cortex-M7处理器的STM32F767嵌入式平台上，以TUM RGB-D数据集作为测试基准，ELPVO对320×240分辨率的图像处理速度可以达到26 fps，整体运行速度提升了84%，运行功耗维持在0.7 W。

改进YOLOv5的多人姿态估计修正算法

赵金源, 贾迪

2024, 46(05): 852-860. doi:

摘要 ( 220 )

PDF (2782KB) ( 458 ) 　　

由于拥挤场景中的多人姿态估计仍受检测目标较小等问题的影响，导致姿态估计准确率低，为此提出一种改进YOLOv5的多人姿态估计修正算法。首先，在YOLOv5的骨干网络中，融入跳跃注意力模块，帮助网络在图像中找到感兴趣区域；其次，在颈部网络中，利用加权双向特征金字塔提高网络对不同尺度特征图间的特征融合能力，并联合使用跳跃注意力模块与Transformer编码器，使网络获取全局信息和丰富的上下文信息；再次，在检测部分增加一个检测头，使网络对微小目标更加敏感；最后，利用网络预测得到的关键点对象信息修正姿态对象信息得到最终的多人姿态估计结果。实验结果表明，本文算法较YOLOv5在COCO数据集上AP50提高了2.2%，AP75提高了3.3%，验证了本文算法的精确性和鲁棒性。

对比约束下的非局部关联单图像去反光级联算法

罗超, 缪君, 郑义林, 华锋, 储珺

2024, 46(05): 861-871. doi:

摘要 ( 145 )

PDF (1671KB) ( 419 ) 　　

图像中存在的反光不但显著降低了图像质量，而且严重影响了后续的计算机视觉任务。因此，提出了一种对比约束下的非局部关联单图像去反光级联算法NCRR，该算法通过LSTM传递跨级联信息的双支路方式，利用反光特征和背景特征相互补充信息并迭代细化预测精度，使2条支路的预测效果相互促进。为了便于多个级联步骤的训练，提出了一种正负对比的正则化损失，将背景图像和原图像的特征分别作为正、负样本，确保目标图像在表示空间中拉近背景图像，推远原图像，缩小预测范围，较好地缓解不适定性问题。此外，提出了一种高效、计算量少的非局部关联预测模块，它能获取十字交叉路径上所有像素的上下文信息。通过进一步级联操作，使每个像素捕获整幅图像长距离的依赖关系，能利用周围像素点信息来预测被强反光遮挡的背景信息。实验结果表明，本文算法能够有效去除玻璃的强反光，并且玻璃去反光的评估结果都超过了其他对比算法，具有较好的鲁棒性。

基于自适应图卷积和注意力池化的点云分类与分割

刘玉珍, 张冬霞, 陶志勇

2024, 46(05): 872-880. doi:

摘要 ( 170 )

PDF (809KB) ( 472 ) 　　

针对现有点云分类与分割方法使用最大池化聚合局部邻域特征，导致最大值以外的重要信息丢失的缺陷，提出一种结合自适应图卷积AdaptConv和注意力池化AP的点云分类与分割网络。首先，采用K近邻算法构建点云局部图结构，根据点的特征生成自适应卷积核，灵活精确地捕获点云的局部邻域特征；其次，为有效提高特征聚合能力，采用注意力池化定义能量函数得到权重值，加权并聚合出更具代表性的点云局部特征；最后，堆叠自适应图卷积和注意力池化逐层提取全局特征，提高网络的分类和分割精度。实验结果表明，相较基准方法，点云分类的平均类别精度提升0.9%，部件分割和语义分割的平均交并比分别提升0.8%和0.3%，证明所提方法可有效提升点云分类与分割的准确率，具有较高的鲁棒性。

鲸鱼优化算法研究与应用进展

王颍超

2024, 46(05): 881-896. doi:

摘要 ( 358 )

PDF (901KB) ( 1523 ) 　　

鲸鱼优化算法WOA是一种根据概率收敛的新型群体智能优化算法，具有原理简单易实现、参数量少易设置和全局与局部开发分别控制易平衡等特点。系统地分析WOA的基本原理和算法性能影响因素，重点论述现有的算法改进策略和算法混合策略的优点及局限性，并阐述了WOA在支持向量机、人工神经网络、组合优化和复杂函数优化等方面的应用与发展。最后，结合WOA的特点及其应用成果，对WOA的发展方向进行了展望。

最小支配阈值集问题的降阶回溯算法

储旭, 宁爱兵, 胡开元, 代苏玉, 张惠珍

2024, 46(05): 897-906. doi:

摘要 ( 146 )

PDF (820KB) ( 400 ) 　　

图论中的最小支配阈值集问题是组合优化中的一个NP-Hard问题，该问题是最小支配集问题的一个扩展问题。基于给定无向图G=(V,E)和阈值r的最小支配阈值集问题进行研究，首先得出一些可以降低问题规模的数学性质并证明，利用这些性质可以减小问题规模，降低问题的求解难度；然后设计出上界子算法、下界子算法和降阶子算法，并基于这些子算法提出了一种可以减小问题规模同时得到最优解的降阶回溯算法BAR；最后，通过一个示例分析和若干随机算例测试验证了降阶回溯算法可有效降低问题的求解难度。

基于邻域关系感知图神经网络的DDI预测

雷志超, 蒋嘉俊, 马驰卓, 周文静, 王楚正

2024, 46(05): 907-915. doi:

摘要 ( 214 )

PDF (1026KB) ( 464 ) 　　

研究药物的相互作用DDI有助于临床用药与新药研发。现有的研究技术没有充分考虑药物知识图谱中药物实体与其他药物、靶标和基因等实体的拓扑结构，以及实体之间不同关系的语义重要性。针对这些问题，提出基于邻域关系感知的图神经网络模型NRAGNN预测药物的相互作用。首先，使用图注意力学习不同关系边的权重与特征表示，强化药物实体的语义特征；然后，生成药物实体周围不同层的邻域表示，捕获药物实体的拓扑结构特征；最后，将2种药物特征表示向量进行逐元素相乘得到药物相互作用分数。实验预测结果表明，提出的NRAGNN模型在KEGG药物数据集上的ACC、AUPR、AUC-ROC和F1指标分别达到了0.899 4,0.944 4,0.956 7和0.902 3，优于当前的其他模型。

基于对span的预判断和多轮分类的实体关系抽取

佟缘, 姚念民

2024, 46(05): 916-928. doi:

摘要 ( 162 )

PDF (1643KB) ( 373 ) 　　

针对自然语言处理领域中的实体识别和关系抽取任务，提出一种对词元序列（Token Sequence,又称span）进行预测的模型Smrc。模型整体上利用BERT预训练模型作为编码器,另外包含实体预判断(Pej)、实体多轮分类(Emr)和关系多轮分类(Rmr)3个模块。Smrc模型通过Pej模块的初步判断及Emr模块的多轮实体分类来进行实体识别，再利用Rmr模块的多轮关系分类来判断实体对间的关系，进而完成关系抽取任务。在CoNLL04、SciERC和ADE 3个实验数据集上，Smrc模型的实体识别F1值分别达到89.67%,70.62%和89.56%，关系抽取F1值分别达到73.11%，51.03%和79.89%，相较之前在3个数据集上的最佳模型Spert，Smrc模型凭借实体预判断和实体及关系多轮分类，在2个子任务上其F1值分别提高了0.73%,0.29%，0.61%及1.64%,0.19%,1.05%，表明了该模型的有效性及其优势。

结合上下文的细粒度实体分类特征表示方法

刘盼, 郭延明, 雷军, 王昊冉, 老松杨, 李国辉

2024, 46(05): 929-936. doi:

摘要 ( 172 )

PDF (770KB) ( 538 ) 　　

细粒度实体分类任务赋予文本中的实体以细粒度类别，能够通过类别信息为实体提供丰富的语义信息，在关系抽取、实体链接和问答系统等下游任务中发挥重要作用。由于实体在句子中的长度和位置是不统一的，无法直接计算实体在上下文中的表示，现有的细粒度实体分类方法将实体提及与其上下文分别进行处理和特征表示，割裂了实体与其上下文之间的语义关联。提出一种结合上下文的实体分类特征表示方法，将实体放回上下文，并解决了实体长度和位置不统一的情况下，实体特征表示的计算问题。实验结果表明，采用结合上下文的实体特征表示方法提取实体在上下文中的特征表示，能够大幅提升细粒度实体分类的性能，该方法在中文细粒度实体分类数据集CFET上的Macro-F1较原文普遍提高了10%以上。

基于多特征交互融合的老挝语无监督音素分割方法

李新洁, 王文君, 董凌, 赖华, 余正涛, 高盛祥,

2024, 46(05): 937-944. doi:

摘要 ( 153 )

PDF (1366KB) ( 371 ) 　　

针对现有方法对老挝语声调变化以及音频多样性考虑不足导致音素分割不准确的问题，提出一种多特征交互融合的老挝语无监督音素分割方法。先对自监督特征、频谱特征以及音高特征进行独立编码，避免单一特征的不足；再基于注意力机制渐进融合多种独立特征，使模型更全面地捕捉老挝语的声调变化和音素边界的信息；最后采用可学习框架优化音素分割模型。实验结果表明，相比基线方法，在老挝语音素分割任务上所提方法的R-value值提升了27.88%。

基于实体知识的远程监督关系抽取

马长林, 孙状

2024, 46(05): 945-950. doi:

摘要 ( 119 )

PDF (681KB) ( 355 ) 　　

为了降低远程监督关系抽取标记数据的噪声，提出一种融合实体描述和自注意力机制的远程监督关系提取模型，模型基于多示例学习，考虑到实体知识和位置关系的综合作用，采用词、实体、实体描述和相对位置的拼接向量作为模型输入，将分段卷积神经网络作为句子编码器，结合改进的结构化自注意力机制，捕捉特征内部相关性，并构造头实体和尾实体的差向量作为注意力机制的监督信息，为句子分配权重。在纽约时报数据集上的实验结果表明，与已有模型相比，本文模型的性能指标均达到最大值。

当期目录

作者中心

审稿中心

在线期刊