Please wait a minute...
  • 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

当期目录

    目录
    2025年第4期目录
    2025, 47(04): 0-0. doi:
    摘要 ( 43 )   PDF (256KB) ( 30 )     
    高性能计算
    基于直接内存访问和动态共享缓冲区的超长向量归约操作硬件卸载结构与方法
    徐金波, 戴艺, 翦杰
    2025, 47(04): 571-581. doi:
    摘要 ( 43 )   PDF (1319KB) ( 63 )     
    MPI聚合通信通过将多个计算结点的多个进程组织起来协同完成一系列通信操作,以提高系统性能。其中,超长操作数向量的归约操作在高性能计算和AI计算中应用广泛。提出了一种基于DMA和动态共享缓冲区的超长向量归约操作的硬件卸载结构与方法。通过专用硬件通信序列触发机制,实现聚合通信硬件卸载流程的控制;通过DMA传输协议提升归约操作数的软硬件传输效率;提出片上动态共享缓冲区存储结构,以实现大量操作数的灵活高效缓存;通过部署片上ALU阵列,直接在网络芯片中完成计算。实验结果表明,相对于MPI非卸载方式和“天河”原有卸载方式均有明显的加速效果,尤其是当归约向量长度较大时,加速效果显著提升。

    轻量化卷积神经网络硬件加速设计及FPGA实现
    李珍琪, 王强, 齐星云, 赖明澈, 赵言亢, 陆亿行, 黎渊
    2025, 47(04): 582-591. doi:
    摘要 ( 57 )   PDF (3153KB) ( 66 )     
    近年来,卷积神经网络CNN在计算机视觉等领域取得了显著的成效。然而,通常CNN的网络结构复杂,计算量庞大,难以在计算资源和功耗受限的便携式设备上实现。而FPGA具有较高的并行度、能效比和可重构性,已成为在便携式设备上加速CNN推理最有效的计算平台之一。设计了一种可配置为不同网络结构的卷积神经网络加速器,并从数据复用、基于行缓存的流水线优化和基于加法树的低延迟卷积技术3个方面对加速器的延迟和功耗进行了优化。以轻量化神经网络YOLOv2-tiny为例,在领航者ZYNQ-7020开发板上构建了一个实时目标检测系统。实验结果表明,整个设计的资源消耗占用为88%,功耗消耗为2.959 W,满足便携设备低硬件消耗及低功耗设计要求,在416×256的图像分辨率下,实现了3.91 fps的检测速度。

    基于国产元器件的大功率多相供电技术研究
    贾春波, 陈光, 姚信安, 李宝峰
    2025, 47(04): 592-600. doi:
    摘要 ( 71 )   PDF (2359KB) ( 62 )     
    高性能计算已经迈入后 E 量级时代,对于高性能处理器的供电技术提出了大功率、低电压、快响应的严苛要求。但是,目前的国产数字多相控制器和 DrMOS 功率器件无法满足低电压条件下大功率的供电需求。为解决该问题,通过数字多相控制器的1个相位驱动2个 DrMOS,提出每相位“1推2”的工程设计方案,实现供电能力加倍。通过器件选型、参数设置、反馈均流等技术手段,控制纹波噪声、动态响应以及多相均流,确保该方案满足工程规范要求。详细介绍了该方案的原理和实现方法,同时搭建验证系统对该方案的可行性和有效性进行了验证。

    基于新型内存语义互连协议的内存池系统研究综述
    洪文韬, 吴利舟, 张金涛, 孟凡丰, 欧洋, 王子聪, 肖侬
    2025, 47(04): 601-611. doi:
    摘要 ( 45 )   PDF (1708KB) ( 74 )     
    在大数据时代,AI和云计算等各种数据中心应用对于大规模数据的存储和计算需求变得越来越迫切,而海量数据的访问开销已成为限制系统性能的主要瓶颈。此外,现有数据中心架构还存在内存利用率不高和内存扩展能力受限的问题。基于新型内存语义互连协议的内存池系统具备高带宽、低能耗、大容量和可扩展等一系列特点,为解决上述问题提供了新的思路,将对未来的数据中心架构产生重大影响。讨论并对比了OpenCAPI、Gen-Z、CCIX、NVLink和CXL 5种新型内存语义互连协议的特点和工作方式,分析了其在构建内存池系统中的作用,还进一步探讨了其在内存池系统方面的应用研究。不管是在工业界还是学术界,CXL是目前关注度最高、发展前景最好的一种内存语义互连技术,因此特别强调了CXL的特点、优势和研究现状。最后,分析了目前基于新型内存语义互连协议的内存池系统仍然面临的挑战,并对未来该方向的研究进行了展望。

    基于FPGA的高速AES实现与列混合改进
    申锦尚, 张庆顺, 宋铁锐
    2025, 47(04): 612-620. doi:
    摘要 ( 34 )   PDF (1102KB) ( 39 )     
    提出了一种基于FPGA的AES高速通信实现方案。通过将加密过程拆分为30级并行流水线结构,提高了通信速度和加密效率。同时,根据AES中列混合部分特殊的GF(28)有限域运算规则和FPGA并行运算的结构特点,设计了中间量交叉列混合结构。该结构可以有效地减少列混合与逆列混合部分的运算延迟和使用面积,提高了加密效率。从逻辑代数的角度,分析了传统列混合结构、较新的列混合结构和中间量交叉计算结构之间计算资源使用量的不同。最终在Xilinx公司的XC5VSX240T芯片上进行了验证,验证结果表明,此方案实现了吞吐量为60.928 Gbps和加密效率为14.875 Mbps/LUT的性能。

    计算机网络与信息安全
    基于孤立集分区的并行Louvain社区发掘算法
    李世杰, 刘阳, 唐晋韬, 郄航
    2025, 47(04): 621-633. doi:
    摘要 ( 25 )   PDF (1242KB) ( 25 )     
    为了将社区发掘应用中流行的Louvain算法应用于大规模图网络,研究人员提出了一系列并行Louvain算法,但这些并行算法均面临着2个挑战:信息同步产生的延迟和社区标签交换问题。为此创新性地引入了“孤立集”的概念,根据孤立集特性对图网络进行分区,并在此基础上提出了基于孤立集的并行Louvain算法。该算法可并行计算和更新顶点信息,不再产生同步延迟或社区标签交换。而后针对孤立集并行算法存在数据长尾效应的局限性,提出了基于哈希表的改进融合算法,进一步提升了计算效能。实验结果表明,孤立集并行算法和融合算法相比传统算法具有良好的加速比和更高的模块度。

    面向智慧油气勘探开发系统的多维密态数据聚合技术研究与应用
    张晓均, 张豪, 李兴鹏, 张经伟
    2025, 47(04): 634-643. doi:
    摘要 ( 23 )   PDF (1168KB) ( 45 )     
    工业物联网(IIoT)技术使得智慧油气勘探开发系统加速了场区数据汇聚,打破了信息孤岛壁垒,同时勘探开发关键数据的机密性、完整性、认证性等信息安全保障也越来越重要。对此,提出了面向智慧油气勘探开发系统的多维密态数据聚合方案。该方案结合超递增序列,改进了同态加密算法,设计了随机盲化秘密参数,即使解密私钥遭泄露,油气勘探开发系统终端设备传输的重要数据也不会被窃取。可信中心根据勘探开发系统中各通信实体的真实身份产生对应的私钥,彼此可以根据对方的身份灵活地协商可认证的会话密钥,计算基于哈希函数的消息认证码。这样,控制中心可以轻量级地验证数据集成平台服务器发送的聚合密文的完整性,解密各个场区关键数据的聚合值,掌握勘探开发状态参数的平均值,实现对智慧油气勘探开发系统的实时监督与调控。安全性分析和性能评估结果表明,所提方案可以安全高效地部署在智慧油气勘探开发环境。

    基于非线性能量收集的非线性信息状态更新系统的信息新鲜度分析#br#
    薛凯来, 贾向东, 韩向花, 牛夏秧, 张亮
    2025, 47(04): 644-654. doi:
    摘要 ( 25 )   PDF (1065KB) ( 35 )     
    针对Nakagami-m衰落信道中时间敏感放大转发(AF)中继辅助物联网系统的非线性信息年龄AoI和能量效率EE的权衡问题,首先提出了一个AF中继传输模型,从而找到端到端近似信噪比SNR。其次,通过考虑Nakagami-m衰落信道中过时的信道状态信息CSI,推导出端到端包传输错误概率。最后,在同时考虑非线性能量收集EH和过时CSI的情况下,得出传感器电池充满电的时间和更新数据包发送时间间隔的统计描述,并利用过时的CSI和EH电路的非线性特性,建立了非线性AoI对EE的权衡模型。实验结果表明,当数据包长在200~250 b之间,且源发射功率在35 dBm时,AoI-EE达到最优。

    基于表征知识蒸馏的WiFi手势识别方法
    龚浩成, 朱海, 黄子非, 杨明泽, 张开昱, 吴飞
    2025, 47(04): 655-666. doi:
    摘要 ( 29 )   PDF (1275KB) ( 38 )     
    随着人工智能和无线传感技术的快速发展,WiFi手势识别已经成为备受关注的研究领域之一。当前的研究工作,为了提高在不同数据域中模型的鲁棒性,减少对模型重新训练的依赖,通过从信道状态信息CSI中提取域无关特征,提出了身体坐标速度谱BVP,可实现在域内和跨域识别上的高准确性。然而在实际场景中,将采集到的CSI信号转换为BVP需要耗费大量计算资源,无法满足在生产环境中所需的实时性和扩展性等需求。此外,使用传统模型处理大量复杂的数据时,其缺乏全局特征和长期依赖关系的捕捉能力。为了解决上述问题,提出了一种基于表征知识蒸馏的WiFi手势识别框架RKD-WGR。RKD-WGR首先利用BVP数据作为教师模型输入,指导利用CSI数据输入的学生模型,将BVP推理分辨能力整合到学生模型中,也让CSI从自身学习来弥补BVP缺失的信息。同时,为了提高识别性能并加强教师模型向学生模型的知识传授能力,提出了3DWiT作为教师模型,利用BVP的时空信息辅助教师模型获取更多的信息来增强知识传授能力。实验结果表明,在Widar 3.0数据集上,不使用BVP而仅使用CSI的情况下,6类手势识别的精确度达到了97.1%,10类手势识别的精确度为96.5%,而22类手势识别的精确度达到了89.5%,验证了所提出框架和模型的有效性。

    具有网络结构适应性的社交网络影响最大化方法
    汪晓洁, 侯小静, 徐春, 张蕾
    2025, 47(04): 667-676. doi:
    摘要 ( 23 )   PDF (1760KB) ( 39 )     
    影响最大化在社交网络分析和挖掘中得到了广泛的研究,其目的是找到一个具有k个节点的种子集合,使得该节点集合在某种传播模型下影响传播的范围最大。现有研究鲜有考虑网络结构对信息传播的影响,影响最大化算法通常对不同结构类型的网络适应性不强。针对该问题,研究了具有网络结构适应性的影响最大化问题,分析了网络结构对影响传播产生的影响。针对二者的影响关系,提出了3种分配策略以适应不同的网络类型;然后,在社区尺度上对节点影响力进行度量,构建初始种子节点集合;最后,对初始种子节点集合进行调优,进一步提高种子节点的质量。在具有不同结构的真实数据集和合成数据集上的实验表明,提出的算法在各项性能指标上均取得了较好的效果,发现了影响传播与种子节点间的平均距离之间,并不是种子节点间的距离越大,影响传播越好,这改变了在考虑传播重叠问题时对种子节点间平均距离的固有认知。

    图形与图像
    CT图像肾肿瘤分割的三维轴向Transformer模型
    张金龙, 吴敏, 孙玉宝
    2025, 47(04): 677-685. doi:
    摘要 ( 35 )   PDF (1011KB) ( 41 )     
    自动分割CT图像序列中肾脏及其肿瘤区域能够为放化疗计划提供定量参考依据。当前基于Transformer的肾肿瘤分割模型得到了广泛关注,特别是与U-Net模型及其变体结合使用。现有的基于Transformer的分割网络通常在单个切片局部窗口内进行特征学习,对切片内空间信息以及切片间轴向信息表示存在不足。针对这一问题,提出了三维轴向Transformer模块,将3个维度的复杂耦合关联分解为交替的2个轴向注意力,融合了切片内部以及切片之间的轴向体关联信息。以三维轴向Transformer模块为基础,融合多尺度特征与残差学习方式,构建了二阶段的肾脏肿瘤分割编解码网络ATrans  UNet,在KiTS19数据集上,肾脏和肾脏肿瘤分割结果的Dice相似性分别是96.43%和81.04%,平均Dice得分对比2D-Unet提升了8.40%,对比3D-Unet提升了4.84%。

    基于三维混沌系统的图像加密及FPGA实现
    闫少辉, 姜嘉伟, 崔宇
    2025, 47(04): 686-694. doi:
    摘要 ( 27 )   PDF (3474KB) ( 30 )     
    提出一种基于FPGA的混沌系统实现方法,并成功将其应用在图像加密任务。基于改进的Bao混沌系统,利用改进的欧拉算法对混沌系统进行离散化,使用Verilog语言进行硬件设计;通过寄存器传输级RTL电路及ModelSim时序仿真验证混沌系统在软件设计层面的准确性。利用离散化的混沌序列在FPGA中对图像进行加密和相应密钥的解密,并通过VGA正确显示,验证了加密方案的可行性。在硬件层面成功实现混沌系统及图像加解密,为混沌加密技术在FPGA中的进一步应用奠定了基础。

    基于改进的YOLOv8n海洋动物目标检测算法:DPSC-YOLO
    梁佳杰, 徐慧英, 朱信忠, 王舒梦, 刘子洋, 李琛
    2025, 47(04): 695-705. doi:
    摘要 ( 51 )   PDF (2375KB) ( 70 )     
    在海洋复杂的环境中,由于图像拍摄模糊、背景复杂,导致基于深度学习的目标检测算法存在特征提取困难和目标漏检等问题,因此海洋目标检测算法需要更加高效且性能优越。为此提出了一种基于YOLOv8n改进的海洋动物目标检测算法:DPSC-YOLO。在主干网络中引入DCNv2模块,通过增强空间建模能力来适应对象的几何变化;在主干网络末端引入空间金字塔池化SPPFCSPC,在保持模型感知场不变的同时减少模型的计算量;在颈部网络增加F2极小目标检测头,结合其余3个尺度,使用4个不同的感受野检测层提高小目标检测精度;在颈部网络的C2f模块中结合CoTAttention注意力机制更好地利用相邻键之间的上下文信息,并根据数据的特点动态调整注意力分配。实验结果表明,DPSC-YOLO目标检测算法与YOLOv8n相比mAP@0.5提升了1.1%,mAP@0.5:0.95提升了4.6%,同时仅有较少的参数量和计算量的增加,证明DPSC-YOLO更适合复杂海洋环境中的目标检测任务。

    人工智能与数据挖掘
    BigFlow:科学数据跨中心协同分析服务系统
    朱小杰, 程振京, 王华进, 杨刚, 田尧, 樊东卫, 米琳莹, 梁兆基,
    2025, 47(04): 706-717. doi:
    摘要 ( 27 )   PDF (3402KB) ( 46 )     
    大数据技术与科学数据的融合催生了诸多科学研究的新范式,也带来了对科学数据进行跨中心协同分析的广泛需求。科学数据跨中心协同分析面临跨中心数据流转不畅、跨框架异构计算困难和跨中心作业调度效率不高等技术挑战,同时要确保分析过程的可信性。为应对这些技术挑战,研制了科学数据跨中心协同分析服务系统BigFlow,该系统采用跨中心分布式架构,配备跨框架工作流执行引擎,实现了工作流跨域的可信执行。基于大规模天文星表交叉证认及黄河流域淤地坝位置识别等应用场景,对系统的跨中心协同分析能力进行了测试与验证。

    融合双词典的农作物病虫害命名实体识别
    朱西平, 高昂, 肖丽娟
    2025, 47(04): 718-727. doi:
    摘要 ( 28 )   PDF (862KB) ( 32 )     
    针对农作物病虫害数据领域性强、数据类型不平衡以及实体嵌套导致通用模型识别精度不高等问题,提出了一种融合双词典的农作物病虫害命名实体识别模型。首先,将原始字符数据和词汇数据分别引入LE-RoBERTa模块和GC-SoftLexicon模块,经增强处理后获得2个独立的字符向量。然后,将融合后的字符向量输入到BiLSTM编码层和CRF解码层获得最优实体序列输出。实验结果表明,模型在构建的农作物病虫害实体数据集上的F1值达到了95.56%,能够有效识别农作物病虫害命名实体。

    基于深度对抗网络的动态图生成模型研究
    张梦圆, 端阳, 王彬彬, 张蕾, 吴裔, 刘畅, 郭乃网, 程大伟
    2025, 47(04): 728-739. doi:
    摘要 ( 40 )   PDF (1393KB) ( 36 )     
    近年来,图生成问题受到了广泛关注。通过学习真实图的分布,图生成技术能够生成与其具有相似特征的合成图,广泛应用于电子商务、电力网络等各个领域。在实际应用中,大多数图是动态变化的,图的拓扑结构会随着时间的推移发生改变。然而,现有的图生成器主要针对静态图进行设计,忽略了图的时序特征,而且现有的动态图生成模型普遍存在训练时间长的问题,难以处理规模庞大的动态图。为了解决这些问题,提出了一种新的基于深度对抗网络的动态图生成模型DGGAN。模型编码器利用图自注意力机制实现并行计算,从而提升模型的训练效率,并使用门控机制来控制信息流动,帮助模型更有效地学习和记忆关键信息。在6个动态图数据集上对DGGAN和具有代表性的图生成模型进行全面的实验评估,实验结果表明,DGGAN在生成图的质量和效率上优于现有模型。

    模式感知采样算法研究
    沈玲珍, 王欣, 石俊豪, 王璐
    2025, 47(04): 740-750. doi:
    摘要 ( 21 )   PDF (2560KB) ( 39 )     
    图数据规模的迅速膨胀,传统分析技术难以应对,尤其在频繁模式挖掘任务中,传统算法往往面临计算资源崩溃的风险。图采样技术能够有效减小数据体量,并进而降低计算开销,已成为图数据分析任务重要的研究方向。然而,现有的图采样算法对频繁模式挖掘任务的支持存在局限,其原因是这些算法未能充分将图数据的关键属性融入结构特征,从而导致采样质量较低。为此,提出了兼顾图的高频结构与关键属性的模式感知采样PAS算法。PAS依托邻域(局部特征)和高频单边模式(全局特征)对图中节点和边进行加权,随后通过在加权图上的有偏游走,完成采样任务。实验表明,PAS在多项指标上优于基线算法,并且能在采样图上挖掘出与原图高度一致的前B个频繁模式,在采样率仅为0.20的设定下,准确率最高达到94%。

    结合噪声数据增强的蒙汉伪平行语料库的构造
    田永红, 章钧津, 宋哲煜
    2025, 47(04): 751-760. doi:
    摘要 ( 18 )   PDF (808KB) ( 41 )     
    神经机器翻译作为机器翻译的主流方法在一般翻译任务中取得了较好的表现。然而其翻译质量依赖于大规模平行语料库,对于低资源语言,语料不足成为其发展面临的重要挑战。数据增强技术的出现能够有效解决数据稀缺问题,因此,通过将噪声数据引入反向翻译的方法进行数据增强构造伪平行语料库。首先对文本进行语料预处理,其次进行反向翻译和结合噪声数据后的反向翻译,再次进行文本相似度匹配,最后将反向翻译技术与结合噪声数据后的反向翻译技术进行对比。在实验数据集上的实验结果表明,结合噪声数据后的反向翻译技术有效提升了低资源机器翻译的表现,其翻译结果在BLEU指标上较仅使用反向翻译技术的提升了1.10%,较未使用反向翻译技术的提升了1.96%。