计算机工程与科学

2024年第1期目录

2024, 46(1): 0-0. doi:

摘要 ( 399 )

PDF (249KB) ( 501 ) 　　

GNNSched：面向GPU的图神经网络推理任务调度框架

孙庆骁, 刘轶, 杨海龙, 王一晴, 贾婕, 栾钟治, 钱德沛

2024, 46(1): 1-11. doi:

摘要 ( 1979 )

PDF (1464KB) ( 1389 ) 　　

由于频繁的显存访问，图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性，直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务，需要根据其输入特点预先分析并发任务的显存占用情况，以确保并发任务在GPU上的成功共置。此外，多租户场景提交的推理任务亟需灵活的调度策略，以满足并发推理任务的服务质量要求。为了解决上述问题，提出了GNNSched，其在GPU上高效管理GNN推理任务的共置运行。具体来说，GNNSched将并发推理任务组织为队列，并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组，这些任务组被迭代地提交到GPU并发执行。实验结果表明，GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。

基于异构平台的卷积神经网络加速系统设计

秦文强, 吴仲城, 张俊, 李芳,

2024, 46(1): 12-20. doi:

摘要 ( 1511 )

PDF (878KB) ( 1279 ) 　　

在计算和存储资源受限的嵌入式设备上部署卷积神经网络，存在执行速度慢、计算效率低、功耗高的问题。提出了一种基于异构平台的新型卷积神经网络加速架构，设计并实现了基于MobileNet的轻量化卷积神经网络加速系统。首先，为降低硬件资源消耗以及数据传输成本，采用动态定点数量化和批标准化融合的设计方法，对网络模型进行了优化，并降低了加速系统的硬件设计复杂度；其次，通过实现卷积分块、并行卷积计算、数据流优化，有效提高了卷积运算效率和系统吞吐率。在PYNQ-Z2平台上的实验结果表明，此加速系统实现的MobileNet网络推理加速方案对单幅图像的识别时间为0.18 s，系统功耗为2.62 W，相较于ARM单核处理器加速效果提升了128倍。

基于内存保护键值的细粒度访存监控

王睿伯, 吴振伟, 张文喆, 邬会军, 张于舒晴, 卢凯

2024, 46(1): 21-27. doi:

摘要 ( 833 )

PDF (961KB) ( 991 ) 　　

基于内存保护键值硬件扩展，提出了一种轻量化且细粒度的页保护机制。突破了传统页保护方法仅支持页粒度访存监控的技术局限，实现了能够拦截每个访存操作的细粒度页保护机制。充分利用内存保护键值提供的用户态线程局部页访问权限控制，性能开销相比传统页保护的降低了30%以上。通过融合细粒度页保护与编译插桩，弥补了传统编译插桩方法无法覆盖程序中不可重编译部分的局限性。

Gloo+：利用在网计算技术加速分布式深度学习训练

黄泽彪, 董德尊, 齐星云

2024, 46(1): 28-36. doi:

摘要 ( 959 )

PDF (1037KB) ( 1014 ) 　　

在分布式深度学习训练中，聚合通信是主要的通信方式。在聚合通信优化的研究中，有软件层面的优化和硬件层面的优化。SHARP是Mellanox提出来的一种聚合通信网络卸载协议，是针对聚合通信在硬件上的优化，其将聚合操作卸载到网络中的交换机，进而缩短了聚合通信时间。在Gloo的基础上集成了SHARP技术，设计并实现了一个能够利用在网计算技术来加速分布式深度学习训练的聚合通信库——Gloo+。评估并比较了Gloo+、Gloo以及MPI中聚合操作的性能，并将Gloo+应用于分布式深度学习训练中，以此来检验其实战能力。对Gloo+的实验评估结果显示，在基准测试时，在消息大小较小的情况下，Gloo+相对于Gloo的加速比最高能达到100以上；相比于以太网模式下的MPI，其加速比最高也能达到50以上；相比于IB网模式下的MPI，其加速比在10以内。在分布式深度学习训练的实际应用中，Gloo+相比于Gloo加速比最高能达到1.1，相比于以太网模式下的MPI加速比最高有1.3，相比于IB网模式下的MPI加速比最高有0.5。

一种基于C单元的三节点翻转自恢复锁存器

徐辉, 朱烁, 孙皓洁, 马瑞君, 梁华国, 黄正峰

2024, 46(1): 37-45. doi:

摘要 ( 771 )

PDF (1223KB) ( 712 ) 　　

随着集成电路中工艺尺寸的不断缩减，锁存器也越来越容易受到粒子辐射引起的三节点翻转的影响。针对该问题，基于C单元的结构，提出一种低功耗、低延时和高鲁棒性的三节点翻转并自恢复的MKEEP锁存器。通过仿真实验和PVT的波动实验表明，相对于其他拥有三节点容忍或自恢复能力的锁存器，该锁存器拥有低功耗、低延迟和更小的面积开销，且对工艺、电压和温度的敏感度较低，优势明显。

区块链安全问题研究综述

沈传年

2024, 46(1): 46-62. doi:

摘要 ( 1007 )

PDF (959KB) ( 1615 ) 　　

区块链凭借其颠覆性的创新技术，正在不断改变数字金融、数字政务、物联网、智能制造等诸多行业的运行规则和应用场景，是构建未来社会全新信任体系和价值体系不可或缺的关键技术。然而，区块链自身技术的缺陷和应用场景的复杂多变导致的安全问题日趋严重，已成为制约区块链未来发展的主要瓶颈，区块链的监管之路任重道远。介绍了区块链的背景知识、基本概念和体系架构；从区块链的体系架构出发，分别从数据层、网络层、共识层、激励层、合约层、应用层以及跨链7个方面对区块链的安全问题和防范策略进行分析；在此基础上，从当前政策监管的情况及监管难点、技术监管的标准建立、创新方式及发展趋势对区块链的安全监管进行探讨。

基于智能进化算法的可见水印对抗攻击

季俊豪, 张玉书, 赵若宇, 温文媖, 董理

2024, 46(1): 63-71. doi:

摘要 ( 893 )

PDF (1073KB) ( 845 ) 　　

随着公民版权意识的提高，越来越多含有水印的图像出现在生活中。然而，现有的研究表明，含有水印的图像会导致神经网络分类错误，这对神经网络的普及和应用构成了巨大的威胁。对抗训练是解决这类问题的防御方法之一，但是需要使用大量的水印对抗样本作为训练数据。为此，提出了一种基于智能进化算法的可见水印对抗攻击方法来生成高强度的水印对抗样本。该方法不仅能快速生成水印对抗样本，而且还能使其最大程度地攻击神经网络。此外，该方法还加入了图像质量评价指标来约束图像的视觉损失，从而使水印对抗样本更加美观。实验结果表明，所提方法相比于基准水印攻击方法时间复杂度更低，相比于基准黑盒攻击对神经网络攻击成功率更高。

DNA存储场景下的大小喷泉码模型设计

崔竞松, 蒋昌跃, 郭迟

2024, 46(1): 72-82. doi:

摘要 ( 862 )

PDF (1191KB) ( 1189 ) 　　

在DNA存储等应用场景中，传统喷泉码算法需要占用额外信道资源将源文件分组数目K传递给解码端。在实际应用中，虽然可以将K嵌入在每一个编码数据分组中进行传递，但这种做法会严重浪费信道的带宽。针对上述问题，提出了一种大小喷泉码模型，通过增加小喷泉码这一带外信道来优化关键参数的传递。小喷泉码将每个编码分组中有关参数K所占用空间的粒度降至1 bit，有效减少了带宽资源的消耗。此外，小喷泉码还能适应由于DNA存储介质不均匀所导致的编码序列不定长的限制条件，一定条件下甚至可以完全不占用额外信道带宽。

智能车载网络中匿名认证与密钥交换协议

张晓均, 唐浩宇, 付红, 王文琛

2024, 46(1): 83-90. doi:

摘要 ( 770 )

PDF (714KB) ( 887 ) 　　

智能车载网络是实现智能交通系统的核心，近年来受到学术界越来越多的关注，但车载网络固有的开放性、脆弱性导致其面临许多安全问题。为解决智能车辆与附近RSU之间双向认证和会话密钥的交换以及智能车辆的身份匿名性问题，提出智能车载网络中匿名认证与密钥交换协议。协议中设计了基于身份的数字签名算法，使得智能车辆以身份完全匿名的方式向附近的路边基站单元发送认证信息。当路边基站单元通过认证之后，计算一个消息认证码作为响应信息发送给请求认证的智能车辆，以实现双向认证。此外，在匿名认证的同时还能进行会话密钥的协商，用于后续的安全保密通信。协议是基于身份密码系统设计的，不需要复杂的证书管理。性能评估表明，所提协议能够有效部署在智能车载应用场景。

基于改进Deformable DETR的无人机视频流车辆目标检测算法

江志鹏, 王自全, 张永生, 于英, 程彬彬, 赵龙海, 张梦唯

2024, 46(1): 91-101. doi:

摘要 ( 1497 )

PDF (1626KB) ( 1369 ) 　　

针对无人机视频流检测中小目标数量多、因图像传输质量较低而导致的上下文语义信息不充分、传统算法融合特征推理速度慢、数据集类别样本不均衡导致的训练效果差等问题，提出一种基于改进Deformable DETR的无人机视频流车辆目标检测算法。在模型结构方面，该算法设计了跨尺度特征融合模块以增大感受野，提升小目标检测能力，并采用针对object_query的挤压-激励模块提升关键目标的响应值，减少重要目标的漏检与错检率；在数据处理方面，使用了在线困难样本挖掘技术，改善数据集中类别样本分布不均的问题。在UAVDT数据集上进行了实验，实验结果表明，改进后的算法相较于基线算法在平均检测精度上提升了1.5%，在小目标检测精度上提升了0.8%，并在保持参数量较少增长的情况下，维持了原有的检测速度。

光流法修正的时序图像语义分割模型

邱晓梦, 王琳, 谷文俊, 宋伟, 田浩来, 胡誉

2024, 46(1): 102-110. doi:

摘要 ( 970 )

PDF (1601KB) ( 1047 ) 　　

医学成像技术的发展带来了海量的医学图像数据，这些图像反映了生物体的内部结构特征，医学图像分割技术可以提高医疗人员的诊断效率，从而成为现代医疗诊断的重要辅助手段之一。然而成像过程中不可避免地会出现噪声或伪影，它们给分割工作带来了极大的挑战。现有的分割模型中，单帧医学图像语义分割模型未考虑图像帧与帧之间的关系，视频语义分割模型虽利用了时序信息，但在边缘提取上有所欠缺。为了解决以上问题，提出了一种以U-Net为骨干，用光流法进行修正的时序语义分割模型。该模型能够提取视频前后帧之间的光流信息，并对当前帧与光流进行特征提取与权重分配，以达到修正的效果。实验结果表明，在果蝇电镜图、腹部综合器官图和冠状动脉造影图这些不同类型的数据集上，该模型在相似性系数、像素准确率和交并比这3个评价指标上都获得了最优结果，验证了所提模型的有效性和泛化性。

基于LoRa设备的人体活动识别研究

崔浩, 万亚平, 钟华, 聂明星, 肖杨

2024, 46(1): 111-121. doi:

摘要 ( 858 )

PDF (229KB) ( 686 ) 　　

近年基于LoRa设备建立的诸多传感模型验证了LoRa设备的长距离传感潜力，但使用特征模糊的LoRa无线信号识别人体活动仍然需要进一步研究。分析了LoRa信号受人体活动影响的传播规律，提出了一种LoRa信号处理方法来提取信号变化特征。随后采集数据创建了2个记录人体活动的LoRa数据集，通过当前先进的深度学习网络检验所提方法的效果。对1个房间内活动种类、活动人员，4个房间内活动人员、活动发生房间的识别准确率均达到了90%以上，对比使用卷积循环神经网络直接进行训练的方法也更节省时间和空间资源。

结合坐标注意力与生成式对抗网络的图像超分辨率重建

彭晏飞, 孟欣, 李泳欣, 刘蓝兮

2024, 46(1): 122-131. doi:

摘要 ( 907 )

PDF (1195KB) ( 857 ) 　　

针对现有生成式对抗网络GAN的图像超分辨率重建模型中存在着特征信息利用不充分、VGG式判别器对局部细节的判断能力较弱以及训练不稳定的问题，提出了一种结合坐标注意力与生成式对抗网络的图像超分辨率重建模型。首先，以嵌有坐标注意力的残差块构建生成器，沿通道和空间2个维度聚合特征，更充分地提取特征。然后，调整Dropout加入网络的方式使其作用于生成器中，提高模型的泛化能力。接着，以U-Net结构构造判别器，输出详细的逐像素反馈，以获取真假图像间的局部差异。最后，在判别器中引入谱归一化正则化，稳定GAN的训练。实验结果表明，当放大因子为4时，在基准测试集Set5和Set14上取得的峰值信噪比平均提高了1.75 dB，结构相似性平均提高了0.038，能够重建出更加清晰且真实的图像，重建图像具有良好的视觉效果。

局部判别损失无监督域适应方法

王姗姗, 汪梦竹, 骆志刚

2024, 46(1): 132-141. doi:

摘要 ( 1006 )

PDF (865KB) ( 997 ) 　　

在无监督域适应任务中，源域和目标域的分布不同，源域数据标签已知，但是目标域的数据标签未知。最大平均差异MMD是一种具有代表性的分布度量方法，广泛应用于源域与目标域之间的分布差异度量。然而，MMD度量及其变种方法通常忽略了样本的类内紧凑性和类间可分离性，降低了特征表达的可判别性。因此，提出局部判别损失无监督域适应方法，从2个方面提升域适应方法的判别能力:（1) 重新设计MMD度量方法的权重，解决类别不均衡问题，使难对齐类别在域间分布上保持一致;（2) 探索局部对比损失，平衡正样本对和负样本对之间的关系，从而学习到更好的判别性特征。结合域间损失和类间损失，可使同一类样本靠近，不同类样本之间远离。该方法简单有效，即插即用，可扩展至注意力机制的网络结构上。在多个域适应数据集上，该方法的有效性均得到了验证。

基于拟合优先搜索的多场景自适应改进A*算法

沈克宇, 游志宇, 刘永鑫

2024, 46(1): 142-149. doi:

摘要 ( 1367 )

PDF (1086KB) ( 745 ) 　　

针对传统A*算法存在遍历节点数多、转折角度大和搜索速度慢的问题，提出基于拟合优先搜索的多场景自适应改进A*算法。首先，引入父节点的启发距离以减少遍历节点数和提高搜索速度，并量化场景地图信息，利用自适应控制原理实现启发权重的适时调整，以增强算法鲁棒性；其次，采用拟合优先搜索策略，进一步增强算法的启发性；接着,通过局部剪枝和冗余节点删除对路径进行平滑处理，减少遍历节点数和转折角度；最后，进行仿真测试。测试结果表明，所提算法遍历节点数更少、转折角度更小、搜索速度更快。

基于代数粒的聚类方法

肖振国, 陈林书, 孙少杰, 梅本霞, 柳媛慧, 赵磊

2024, 46(1): 150-158. doi:

摘要 ( 821 )

PDF (675KB) ( 676 ) 　　

聚类，是机器学习的主要任务之一，也是粒计算理论的核心任务，即信息粒化。目前，基于粒计算的聚类算法中，大多数只基于粒属性进行聚类，而没有考虑粒结构，尤其是在代数结构应用广泛的信息领域。从粒计算的角度，提出一种基于代数粒的聚类方法。基于二元代数运算定义代数粒；提出一种基于代数粒的聚类方法，通过粒集的同余划分和粒结构的同态映射进行粒度聚类；将提出的聚类方法与容差邻域模型和商空间模型进行对比分析。结果表明，该新型方法具有更好的结构完备性和应用鲁棒性。基于代数粒的聚类方法从结构上丰富和扩展了粒度计算理论，为粒计算与机器学习的融合研究提供了理论依据。

基于混合启发式算法的快递末端选址路径优化研究

孙睿男, 初翔, 陈昱, 闫明宁

2024, 46(1): 159-169. doi:

摘要 ( 929 )

PDF (840KB) ( 1342 ) 　　

传统快递末端配送模式存在快递网点建设冗余、派送路径重叠等问题，而共同配送模式可有效解决此类问题，因此对共同配送模式下同时收派件且收件需求为不确定情形的快递末端网点选址路径问题进行研究。首先，建立了两阶段数学优化模型，引入随机机会约束来处理收件量不确定的问题。其次，设计基于遗传算法和自适应大邻域搜索算法的混合启发式算法。最后，通过数值实验表明：所设计的混合算法比传统遗传算法具有较快的收敛速度和较好的求解质量；决策者对随机需求下的优化方案风险接受程度过高或过低都会导致成本上升；随客户收派量之比的增加，快递末端配送成本呈先降低后增高的趋势；采用最近网点返回策略可有效降低企业配送成本。

基于无监督预训练的跨语言AMR解析

范林雨, 李军辉, 孔芳

2024, 46(1): 170-178. doi:

摘要 ( 846 )

PDF (640KB) ( 641 ) 　　

抽象语义表示AMR是将给定文本的语义特征抽象成一个单根的有向无环图。由于缺乏非英文语言的AMR数据集，跨语言AMR解析通常指给定非英文目标语言文本，构建其英文翻译对应的AMR图。目前跨语言AMR解析的相关工作均基于大规模英文-目标语言平行语料或高性能英文-目标语言翻译模型，通过构建(英文，目标语言和AMR)三元平行语料进行目标语言的AMR解析。与该假设不同的是，本文探索在仅具备大规模单语英文和单语目标语言语料的情况下，实现跨语言AMR解析。为此，提出基于无监督预训练的跨语言AMR解析方法。具体地，在预训练过程中，融合无监督神经机器翻译任务、英文和目标语言AMR解析任务;在微调过程中，使用基于英文AMR 2.0转换的目标语言AMR数据集进行单任务微调。基于AMR 2.0和多语言AMR测试集的实验结果表明，所提方法在德文、西班牙文和意大利文上分别获得了67.89%, 68.04%和67.99%的Smatch F1值。

基于prompt tuning的中文文本多领域情感分析研究

赵文辉, 吴晓鸰, 凌捷, HOON Heo

2024, 46(1): 179-190. doi:

摘要 ( 992 )

PDF (1348KB) ( 1084 ) 　　

不同领域的情感文本表达方式不一样，通常需要为各个领域训练相应的情感分析模型。针对无法用一个模型进行高效多领域情感分析的问题，提出了基于提示微调(prompt tuning)的多领域文本情感分析方法MSAPT。借助hard prompt，指示情感文本的所属领域和待选的情感标签，调动不同领域情感分析相关的知识，再为情感分析预训练一个统一的 “通才模型”，在下游的各领域文本学习中，保持模型冻结，通过prompt tuning使模型学习到下游各领域情感文本的特征。MSAPT仅需保存一个模型和一些参数量远远小于模型的prompt，实现了多领域情感分析。在多个属于不同领域的情感文本数据集上进行实验，结果表明仅进行prompt tuning时，MSAPT效果优于模型微调(model tuning)的。最后，分别对适应特定领域的prompt tuning、hard prompt、soft prompt的长度和中间训练数据集的大小进行消融实验，从证明其对情感分析效果的影响。

当期目录

作者中心

审稿中心

在线期刊