Please wait a minute...
  • 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

当期目录

    目录
    2025年第10期目录
    2025, 47(10): 0-0. doi:
    摘要 ( 105 )   PDF (242KB) ( 91 )     
    高性能计算
    一种面向地球系统模式的高效并行计算框架
    王冬, 刘壮, 黄小猛
    2025, 47(10): 1711-1925. doi:
    摘要 ( 133 )   PDF (3320KB) ( 142 )     
    地球系统模式是理解过去气候与环境演变机理、预估未来全球变化情景的关键工具。然而,计算机技术的快速发展为模式开发带来了编程、移植和优化方面的巨大挑战。面向地球系统模式的自动并行计算框架OpenArray 2.0,通过提供自定义算子接口,结合隐式并行、计算流图优化、自动代码生成、即时编译和动态调度I/O等技术,实现了模式开发与计算机底层并行架构的解耦。OpenArray 2.0允许用户使用类似Matlab的串行语法编写模式,而底层可在x86、申威、GPU等多种异构平台上实现并行执行。基于OpenArray 2.0开发的模式在x86平台19 200核下,可达到75%的并行效率,运行速度接近手工优化代码;在申威平台百万核环境下,实现了70%的扩展性;在GPU平台上也展现出优异的执行效率。OpenArray 2.0为地球系统模式的发展提供了一种极具潜力的替代工具,有望显著提升模式开发效率和计算性能。

    面向FPGA模拟加速的状态存储和策略映射技术研究
    荣培涛, 曾坤, 李开, 张甜, 王永文
    2025, 47(10): 1726-1736. doi:
    摘要 ( 76 )   PDF (2250KB) ( 77 )     
    随着处理器设计规模的不断增长,周期精确模拟技术面临挑战:传统的软件模拟器通常速度缓慢,而硬件仿真加速平台往往价格昂贵,这限制了大多数学术和工业研究团队的使用。使用FPGA来加速周期精确模拟被视为一种极具潜力的手段。近年来出现的利用FPGA进行模拟加速的开源平台FireSim,不仅整合了FPGA加速模拟领域之前的研究成果,还克服了一系列关键障碍。然而该方案仍存在FPGA资源利用率不足问题,尤其是模型映射后BRAM资源占用过多,限制了模拟规模的进一步扩展。为了解决这一问题,提出了新的FPGA模拟加速平台资源管理与优化技术,包括识别BRAM资源占用的自动化流程和2种映射策略:将占据BRAM的部件迁移到URAM,以减轻压力,同时通过分散重构和资源敏感映射实现资源均衡使用。这些技术使得单块FPGA上的仿真规模从16核增加到32核,理论上可扩展至64核,且几乎不损失原模型的模拟速度,有效增强了现有平台的模拟规模拓展性,对于推动FPGA加速技术在大规模全系统仿真场景下的应用具有重要意义。

    基于近似计算的脉冲神经网络加速器设计
    许炜康, 孙岩, 张建民
    2025, 47(10): 1737-1744. doi:
    摘要 ( 91 )     
    脉冲神经网络(SNN)实现了对生物神经更为接近的模拟,其高能效的特性极为适用于边缘和终端计算场景。然而,在对功耗高度敏感的应用中,进一步降低功耗依旧是一个至关重要的任务。近似计算通过引入一定的误差来简化设计,为容错应用的高能效硬件设计带来了新的契机。对将近似计算应用于 SNN 加速器的方法进行了探索,首先,针对 SNN 的应用特点展开分析与实验,总结出 SNN 加速器中大量加法器输入数据的分布特性。基于此特性,提出一种针对应用敏感的近似运算部件误差评估指标AARE。依据AARE指标以及提出的最优近似加法器选择策略,能够针对特定应用选择更为合适的近似运算部件。在此基础上,利用开源的 EDA 工具和 PDK 实现了一种基于近似计算的 SNN 硬件加速器 AxSpike,并使用 snnTorch 开发了相应的模拟器。实验结果表明,AxSpike加速器能够实现 37.32% 的功耗节约以及 31.26% 的面积节省,精度仅下降 3.47个百分点,极大提高了 SNN 硬件加速器的能效比。

    三维片上网络自适应路由算法研究综述
    邵晶波, 宁家鸿, 苏鑫苓
    2025, 47(10): 1745-1755. doi:
    摘要 ( 103 )   PDF (1175KB) ( 67 )     
    近年来,随着半导体制造工艺不断发展,芯片的集成度不断提高。作为大规模片上互连问题的一种解决方案,三维片上网络(3D NoC)已经成为集成电路发展的一个主要趋势。然而,系统之间大规模的通信可能会造成网络拥塞、链路故障以及局部温度过高等问题,从而降低系统性能。故拥塞控制、拓扑感知以及热点避免是路由算法所研究的重点。而3D NoC自适应路由算法根据3D NoC的网络状态,动态地对数据包进行路由决策,已成为3D NoC路由算法研究的热点之一。首先介绍了自适应路由算法的研究历史,阐述了3D NoC自适应路由算法的工作原理和实现方式,并从算法设计原则的角度对算法进行分类。其次在基于路由规则、路由策略以及调整策略方面的分析框架下,对近年来提出的自适应路由算法进行了分析,并归纳了它们的特点。最后,讨论了自适应路由算法面临的挑战和未来发展趋势。
    计算机网络与信息安全
    面向精度可配置近似加法器的新的攻击模式和防护措施
    汪昊南, 王真
    2025, 47(10): 1756-1766. doi:
    摘要 ( 65 )   PDF (3832KB) ( 61 )     
    近似计算电路面向具有内在差错容忍特性的应用,通过牺牲一定的计算精度,取得了计算性能和能耗效率上的优势。然而,近期的研究指出近似计算电路的近似机制可能会被利用来制造新的攻击。对于攻击实例以及对应的检测方法或防护方法的探索逐渐引起广泛关注。到目前为止,对于近似计算电路安全威胁的调查仍处于初期阶段,只有少数的研究提出了具体的攻击实例,并且缺乏面向精度可配置近似加法器的攻击模式和防护措施的研究。因此,这迫切需要对已有的精度可配置近似加法器进行调查并提出可能的攻击方法来揭示新的安全威胁。在此背景下提出了一种针对精度可配置近似加法器的近似精确边界(APB)攻击,并对2种攻击模式进行了分析。此外,还提出了2种防护措施,分别是近似类型随机选择和近似配置授权电路。实验结果表明,近似配置授权电路能够以10.17%的额外面积开销、低于13%的额外功耗开销以及可以忽略不计的额外延迟开销对攻击进行防护。

    云边协同框架下视频处理任务实时调度算法
    李佳坤, 谢雨来, 冯丹
    2025, 47(10): 1767-1778. doi:
    摘要 ( 70 )   PDF (1281KB) ( 54 )     
    在云边协同的视频任务处理中,由于存在大量的处理和传输任务,需要考虑任务处理的成功率、任务的处理时间,以保证服务质量。同时,还需要考虑各种资源开销以节省系统运营成本。为了解决上述难题,对云边协同框架下的视频任务调度问题进行了形式化建模,将问题转化为多目标优化问题。针对上述问题,提出了OCES算法,以权衡任务的时延与其在不同节点上产生的开销,并适应不同的动态场景。该算法对相同时间片内的任务进行排序以确定任务优先级,对于每个任务,结合任务信息与当前各边缘节点、云中心节点的状态信息,通过神经网络判断选取Q值最大策略的方法进行调度,用于指定任务的具体执行节点。OCES是基于DDQN的算法,对奖励函数和策略选择方法进行了改进,通过在深度神经网络中结合噪声网络,避免算法过早收敛于局部最优解。相比目前国际先进的CPSA算法,所提出的算法在成功率与完成时间相近的情况下,执行开销在不同平均到达速率与不同任务类型比例的2个场景中分别降低了10.56% 与5.85%。

    基于路由接入的IPSec实体动态自组网解决方案研究
    罗晋, 梁嬿良, 陈洋, 赵祺
    2025, 47(10): 1779-1786. doi:
    摘要 ( 62 )   PDF (2462KB) ( 45 )     
    随着IPSec在网络层加密传输中应用日益广泛,其端到端特性在大规模组网应用中组网效率低、配置运维难的问题也逐渐显现。目前行业内提出的主流解决方案能够一定程度缓解上述问题,但均存在一定的局限性。通过对IPSec SPD和SAD的建立机制以及路由接入技术进行深入研究,挖掘二者相互融合的可能性,最后提出一种新的IPSec实体动态自组网解决方案,该方案能够有效提高IPSec实体在大规模组网应用中的自组网效率,降低配置运维保障的压力。

    面向DCT系数分析的Seam Carving对象移除定位方法
    蔺聪, 马鸿基, 司徒晓晴, 甄荣桂, 肖洪涛, 邓宇乔
    2025, 47(10): 1787-1798. doi:
    摘要 ( 72 )   PDF (4769KB) ( 58 )     
    随着数字图像处理技术的飞速发展,图像篡改手段日益多样化和隐蔽化,其中一种重要篡改方式就是对象移除。Seam Carving可应用于调整图像大小和对象移除。针对通过Seam Carving进行对象移除这一篡改方式,首次将双量化效应引入Seam Carving对象移除,根据Seam Carving对象移除过程中产生的DCT异常块,提出了一种基于DCT系数分析的Seam Carving对象移除定位方法。首先,提取JPEG图像中的量化矩阵和DCT系数直方图。其次,根据直方图估算出主要量化矩阵和原始DCT系数,并使用贝叶斯方法估算出图像篡改区域的后验概率图。最后,对该后验概率图进行去噪和定位,得到移除区域的准确位置。实验结果表明,该方法能够有效地检测和定位Seam Carving对象移除,为该问题的解决提供了一种新的研究思路。

    软件工程
    硬件描述语言代码缺陷自动调试技术研究综述
    徐建军, 何枷瑜, 吴江, 毛晓光
    2025, 47(10): 1799-1809. doi:
    摘要 ( 76 )   PDF (809KB) ( 75 )     
    代码缺陷是硬件设计中常见且严重的问题。在开发和维护阶段,缺陷调试对于硬件开发人员来说目前仍然是一项高度手动且耗时的任务。将硬件开发人员从繁重的调试任务中解放出来已成为硬件验证领域的迫切需求,因此针对硬件描述语言的代码缺陷自动调试技术应运而生,并逐渐成为一个热门的研究热点。为了整理这方面的工作,对硬件描述语言代码缺陷自动调试技术相关研究进行了调研分析,从缺陷分析、缺陷自动检测及定位和缺陷自动修复3个方面对自动调试技术研究进展进行了阐述和分析,并讨论了当前技术的局限性以及面临的挑战。

    干涉约束下的飞机动态虚拟拆装过程建模与仿真
    马红岩, 陈静杰
    2025, 47(10): 1810-1818. doi:
    摘要 ( 49 )   PDF (807KB) ( 36 )     
    针对当前飞机虚拟拆装过程建模中存在的表达不规范、过程固化以及无法满足实训者多样的动态操作需求等问题,提出了一种过程建模方法。首先,以拆装对象为主体构建了虚拟拆装参数化模型和对象属性标签,分别用于规范表达虚拟拆装过程和记录对象属性及其当前状态。然后,构建了干涉约束矩阵,用于表达对象间的干涉约束关系,作为实训操作的约束边界。在此基础上,构建了干涉约束下的飞机动态虚拟拆装过程模型。最后,以某型飞机货仓温度传感器的拆装为例建立模型进行验证,结果表明该模型具有良好的规范性和动态性,可有效减少建模的工作量。

    图形与图像
    面向小型无人机目标的快速视觉检测与跟踪算法
    底佳浩, 铁俊波, 周理, 王永文
    2025, 47(10): 1819-1829. doi:
    摘要 ( 115 )   PDF (4680KB) ( 79 )     
    小型无人机在多个领域展现出巨大潜力,但可能导致如非法测绘、侦察及干扰航空秩序等滥用行为,因此亟需有效的检测与跟踪策略。传统雷达在复杂城市环境中跟踪小型无人机存在局限,而基于视觉的深度学习方法虽具高精度,但计算开销大。为解决上述挑战,提出一种基于轻量化YOLOv3-tiny与交互式多模型卡尔曼滤波(IMM-KF)的检测与跟踪算法。YOLOv3-tiny用于低频检测,IMM-KF通过高频预测以及多运动模型的状态更新实现跟踪,有效降低算力需求,并且能应对目标被遮挡时的丢失问题。实验结果显示,该算法在复杂城市环境中检测与跟踪精度达98.33%,实时覆盖率达73.6%,显著提升了跟踪效率及稳定性,满足无人机监管需求。

    基于时空图注意力状态空间模型的人体姿态异常检测研究
    李航, 陈志刚, 王易杰, 张心宇, 雷惊鸿, 刘凌枫
    2025, 47(10): 1830-1840. doi:
    摘要 ( 79 )   PDF (1315KB) ( 52 )     
    视频异常检测在公共安防、交通和医疗等领域应用广泛,人体姿态异常检测存在易受环境影响、骨架时序难处理、计算复杂度高和运动区域的局部重要特征易忽略等问题。为解决上述问题,提出了一种新的基于人体骨架的时空图正则化流混合注意力状态空间模型STG-FAM。该模型通过在时空图卷积网络中引入选择性状态空间模型和正则化流,有效捕获骨架时序中的时间动态特征,利用混合注意力机制学习跨通道域和空间域的注意力权重,增强模型对时序骨架关键节点与时空边的关注,提升模型表征能力和异常检测能力。通过在2个视频异常检测数据集ShanghaiTech Campus和UBnormal上进行验证,表明了所提模型的有效性。

    双先验引导的注意力特征聚合去雾生成对抗网络
    王燕, 胡津源, 刘晶晶, 陈燕燕
    2025, 47(10): 1841-1852. doi:
    摘要 ( 73 )   PDF (3130KB) ( 69 )     
    图像去雾是计算机视觉领域中一个具有挑战性的热点问题。现有的去雾方法通常使用单一的卷积神经网络(CNN)来解决问题,但此类方法缺乏细节恢复机制,并且在非均匀雾情况下去雾性能较差。为了解决上述2个问题,提出了一个双先验引导的注意力特征聚合去雾生成对抗网络,暗通道先验和语义先验分别引导图像广义特征和纹理细节的恢复。其中,生成器采用参数共享编码器提取特征,添加了注意力特征聚合块(AFAB)对多尺度特征进行聚合增强,并通过解码多尺度特征恢复无雾图像,最后用多尺度判别器监督无雾图像的恢复。此外,考虑到图像中可能存在雾的不均匀分布,提出了坐标注意力残差块(CARB),它能自适应地分配权重,使网络关注图像的重要特征;同时,采用残差聚合的方式通过3个CARB构造了坐标注意力密集残差组(CARG),使得残差特征能被充分利用。实验结果表明,提出的网络在合成有雾图像数据集和现实有雾图像数据集上均表现优异。

    人工智能与数据挖掘
    多策略改进的精英金豺优化算法
    吴智祥, 刘杰, 覃涛, 陈昌盛, 李伟, 杨靖
    2025, 47(10): 1853-1866. doi:
    摘要 ( 73 )   PDF (1485KB) ( 51 )     
    针对金豺优化算法求解优化问题时存在收敛速度慢、易陷入局部最优等问题,提出了一种多策略改进的精英金豺优化算法EGJO。首先,通过精英反向学习策略选取精英种群寻优求解,在提高种群质量与多样性的同时有效地提升算法的收敛精度与速度。其次,采用双面镜反射理论处理越界个体,解决种群分布不均匀的问题。再次,提出一种自适应能量因子,协调算法的全局搜索与局部开发过程。最后,对种群最优个体进行柯西变异扰动,提升算法跳出局部最优的能力。通过16个典型基准测试函数的优化仿真实验,从收敛性、鲁棒性、Wilcoxon秩和检验等方面与6种优化算法进行对比分析。实验结果表明,改进的精英金豺优化算法的收敛精度和速度均得到了显著提升。另外,将改进的精英金豺算法用于求解2个典型的工程优化问题,表明了所提算法在解决实际工程优化问题时的可行性和高效性。

    基于边云协同和增强现实的智能装配方法
    曹鹏霞, 李文新, 黄羿博
    2025, 47(10): 1867-1876. doi:
    摘要 ( 52 )   PDF (1416KB) ( 46 )     
    传统装配方法存在效率和质量难以保证、可视化程度低等问题,而增强现实可穿戴设备在跟踪注册的稳定性以及计算能力等方面亦存在不足。为了解决这些问题,提出了一种基于边云协同和增强现实的智能装配方法。云端通过跟踪注册模块为装配过程提供准确的位姿信息,并管理智能装配所需三维模型和装配工艺等信息。由于装配场景目标大多缺少纹理且大小不一,跟踪注册模块使用改进的YOLOv5s进行目标检测得到操作对象,然后应用三维点云配准算法得到操作对象的精确位姿信息。边缘端通过双目AR眼镜,提供操作现场环境数据,接收云端提供的位姿信息,并结合语音识别模块以及增强现实可视化模块实现装配过程指引。通过实验验证,所提方法能够有效解决增强现实智能装配系统面临的准确性、快速性以及鲁棒性等问题,可实现“所见即所操作”的智能装配指引。

    基于多策略融合的改进黑猩猩优化算法
    王燕, 王妮娅, 毛剑琳, 徐志昊, 李大焱
    2025, 47(10): 1877-1889. doi:
    摘要 ( 67 )   PDF (3409KB) ( 44 )     
    黑猩猩优化算法ChOA具有个体多样性丰富和收敛速度快的特点,但是该算法在搜索能力和跳出局部最优上仍有改善的空间。因此,提出一种基于多策略融合的改进黑猩猩优化算法。首先,引入双交叉无限折叠迭代混沌映射对种群进行初始化,以提高初始解质量,有助于算法后续寻优;其次,结合正余弦权重因子和个体最佳跟随策略的混合位置更新机制更新个体位置,提高算法寻优能力和收敛精度;最后,引入柯西高斯变异机制,对当前最优个体进行变异,同时结合贪婪策略选择最佳个体,增强算法跳出局部最优的能力。在数值实验中,使用10个基准函数的Wilcoxon秩和检验对比分析改进算法的寻优性能,结果表明,所提算法寻优性能较对比算法均有所提升,并在三维路径规划问题上进一步验证了算法有效性。

    基于源代码迁移的编译器优化方法研究
    周放, 刘茂福, 李珊枝
    2025, 47(10): 1890-1900. doi:
    摘要 ( 67 )   PDF (1208KB) ( 61 )     
    编译器优化旨在通过在中间代码IR语言上进行一系列变换,提高代码在目标平台上的运行效率。传统方法通常依赖机器学习来分析IR特征,并预测LLVM编译器优化通道的最佳组合。然而,这些方法因受限于编译器现有优化策略和对全局信息的有限利用,其扩展性受限。采用深度学习自动将函数级IR从未优化状态转换至O2级别优化,并将此优化过程视为翻译任务。通过引入密集数据流图DDFG,能够提取IR代码的全局结构信息,从而引导模型更全面地学习代码语义。使用Transformer模型进行的实验表明,所提方法的模型能在O2级别有效训练IR,且86.15%的函数级优化代码能在保证语义完整性的同时,在编译器上正确执行。