Please wait a minute...
  • 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

当期目录

    目录
    2024年第11期目录
    2024, 46(11): 0-0. doi:
    摘要 ( 73 )   PDF (257KB) ( 131 )     
    高性能计算
    DeepFlame:基于深度学习和高性能计算的反应流模拟开源平台
    毛润泽, 吴子恒, 徐嘉阳, 章严, 陈帜,
    2024, 46(11): 1901-1907. doi:
    摘要 ( 119 )   PDF (2134KB) ( 161 )     
    近年来,深度学习被广泛认为是加速反应流模拟的一种可靠方法。近期开发了一个名为DeepFlame的开源平台,可以在模拟反应流过程中实现对机器学习库和算法的支持。基于DeepFlame,成功地采用深度神经网络来计算化学反应源项,并对DeepFlame平台进行了高性能优化。首先,为了充分发挥深度神经网络(DNN)的加速潜力,研究实现了DeepFlame对DNN多卡并行推理的支持,开发了节点内分割算法和主从通信结构,并完成了DeepFlame向图形处理单元(GPU)和深度计算单元(DCU)的移植。其次,还基于Nvidia AmgX库在GPU上实现了偏微分方程求解和离散稀疏矩阵构造。最后,对CPU-GPU/DCU异构架构上的新版本DeepFlame的计算性能进行了评估。结果表明,仅利用单个GPU卡,在模拟具有反应性的泰勒格林涡(TGV)时可以实现的最大加速比达到15。

    Gyration:基于RTT测量的报文偏转拥塞控制算法
    陆平静, 余佳仁, 袁郭苑
    2024, 46(11): 1908-1915. doi:
    摘要 ( 55 )   PDF (809KB) ( 102 )     
    高效的拥塞控制一直是数据中心网络领域的一个重要挑战。往返时延RTT的精确测量是基于RTT的反应型拥塞控制算法的关键。基于Swift拥塞控制算法,提出一种基于RTT测量的报文偏转拥塞控制算法——Gyration,将偏转报文延迟添加到RTT计算过程,在偏转拥塞控制算法中增加偏转延迟的测量,使RTT计算更准确,更加精确地评估网络拥塞情况。实验结果表明,相比Swift算法,在重负载的Cache Follower、Data Mining、Web Search和Web Server流量模式下,Gyration将流完成时间FCT缩短了20%,80%,13%和60%,吞吐量提高了38%,6%,15%和2%,实现了对数据中心网络更加及时、精确的拥塞控制,有效缓解了数据中心网络拥塞问题。

    基于TLSF算法的高效内存分配算法的设计与实现
    陈朝辉, 段雄
    2024, 46(11): 1916-1923. doi:
    摘要 ( 52 )   PDF (792KB) ( 95 )     
    在嵌入式系统中,由于内存资源的有限性,内存分配器的性能和碎片率成为其重要考量因素。目前主要采用的内存分配算法是TLSF,然而该算法在嵌入式系统中存在一些问题,例如小内存申请导致外部碎片和大内存申请导致内部碎片。为了解决这些问题,对TLSF算法进行了优化:(1)针对小内存申请,引入了静态内存池(POOL)算法,以解决TLSF算法中大量小内存分配带来的外部碎片问题;(2)针对大内存申请,提出了按级划分的DBL内存分配策略,解决了大内存分配中的内部碎片问题。实验结果表明,通过使用优化后的TLSF算法(DBL+POOL)进行内存管理,可以更好地利用内存资源,提高嵌入式系统的性能和可靠性。

    一种基于浮点误差分析的混合精度鲁棒性提升方法
    于恒彪, 易昕, 李胜国, 李发, 姜浩, 黄春
    2024, 46(11): 1924-1930. doi:
    摘要 ( 38 )   PDF (648KB) ( 98 )     
    浮点运算是高性能计算的典型数值求解模式。混合精度优化通过降低程序中浮点变量的精度来提高性能和降低能耗。然而,现有混合精度自动优化技术受限于鲁棒性低的问题,即优化后程序不满足给定输入的结果精度约束。为此,提出了一种基于浮点误差分析的混合精度鲁棒性提升方法。首先,基于浮点误差分析获取能够触发程序不精确计算的输入;然后,基于误差触发输入评估精度配置,引导搜索获取鲁棒性高的混合精度配置。实验结果表明,针对典型浮点应用,该方法能够将混合精度优化的鲁棒性平均提升62%。

    基于动态自重构结构的3D-HEVC帧内预测算法并行化实现
    杨航, 山蕊, 杨坤, 崔馨月
    2024, 46(11): 1931-1939. doi:
    摘要 ( 33 )   PDF (2332KB) ( 83 )     
    3D高效视频编码3D-HEVC中帧内预测算法在专用硬件上的实现具有一定的局限性,无法满足帧内预测算法多种模式灵活自主切换的需求,导致编码性能差,硬件资源利用率不高。针对这一问题,提出一种新的3D-HEVC帧内预测算法在可编程动态自重构阵列处理器上的实现方法,该方法基于动态自重构机制,通过可编程控制器实时收集阵列执行状态,监测到阵列对当前任务执行结束后自主下发新的执行任务。通过对不同预测模式映射方案的硬件自主重构,实现算法的灵活切换。实验结果表明,与相关工作相比,该方法在提高灵活性的同时,硬件资源减少了49.1%,计算延迟减少了29.2%。将测试序列经过整个帧内环路测试,测试结果显示,图像质量良好。

    面向高性能计算机光互连的低抖动Retimer电路
    刘庆, 王和明, 吕方旭, 张庚, 吕栋斌
    2024, 46(11): 1940-1948. doi:
    摘要 ( 45 )   PDF (2231KB) ( 90 )     
    随着通信带宽的大幅提升,低抖动作为多场景应用中信号传输质量的关键指标,已成为信号完整性研究的重要方向。56 Gbaud的Retimer芯片是高性能计算机光互连数据传输的关键核心芯片,其抖动性能也制约着光模块高性能计算机的整体性能。针对传统高速Retimer芯片抖动性能低的难题,首次提出了数据速率超过100 Gbps的低抖动Retimer电路。Retimer电路基于CDR+PLL架构,集成在光纤中继器中,具有均衡和全速率重定时功能;采用抖动消除的滤波电路,能在高噪声输入信号下取得良好的输出数据抖动性能,为解决传统Retimer直接采样转发导致输出数据抖动大的问题提供了技术支持。采用TSMC 28 nm CMOS工艺完成了基于CDR+PLL架构的低抖动Retimer电路设计。仿真结果表明,当输入112 Gbps PAM4时,Retimer的输出数据抖动为741 fs,相比于传统Retimer结构降低了31.4%。

    异构微差同步并行训练算法
    黄山, 吴煜凡, 吕鹤轩, 段晓东,
    2024, 46(11): 1949-1959. doi:
    摘要 ( 34 )   PDF (1783KB) ( 82 )     
    前馈神经网络BPNN因具有非线性能力强、自学习能力强、自适应能力强以及容错能力强等优点,被广泛应用于行为识别和预测等领域。随着模型的升级优化和数据量的快速增长,基于大数据分布式计算框架的并行训练架构成为主流。ApacheFlink作为新一代大数据计算框架,因其具有高吞吐量、低时延等特点而被广泛应用。硬件设备更新换代速度的加快以及购买批次不同导致现实生活中Flink集群大多数为异构集群,意味着集群中的计算资源不均衡。现有的BPNN并行训练模型无法解决因计算资源不均衡带来的训练过程中高性能节点空转的问题。此外,异构环境下BPNN的并行训练还存在节点数量增加,节点间的通信开销也随之增加的问题。传统的小批量梯度下降方法拥有较好的寻优效果,但随机的初始化模型和小批量的梯度下降特点导致了BPNN并行化训练出现收敛速度缓慢的问题。针对以上问题,为加快异构环境下BPNN并行化训练速度,提高BPNN并行训练效率,提出了异构微差同步并行训练算法。该算法能够针对异构环境下节点性能不同的情况,对节点性能进行评分,并实时地通过数据分区模块动态地按比例分配数据,使节点性能和节点分配数据量成正比,从而减少高性能节点空转时长。

    计算机网络与信息安全
    一种基于区块链的众包激励机制
    杨松, 王馨茹, 李凡, 祝烈煌, 赵博
    2024, 46(11): 1960-1970. doi:
    摘要 ( 54 )   PDF (1125KB) ( 102 )     
    众包指利用群体智能来收集、处理、推断和确定大量有用信息,在服务评分、调查问卷、投票以及工业物联网领域都具有巨大的潜力。众包系统涉及3个利益相关者:平台、工人和任务发布者。传统的众包系统是激励不相容的,同时由于缺乏信任,任务发布者和工人之间传输的所有数据都需要远程中心化平台充当信用中介,这意味着会造成网络拥塞、隐私泄露等问题。针对以上问题,提出了一种基于信任值的众包激励机制,包括了一种众包工人的“奖励-惩罚”模型、任务发布者与主节点间的佣金机制以及主节点间资源置换囚徒困境的智能合约方案。通过在边缘环境的主节点上构建智能合约,实现上述多方激励机制。通过闪电网络的链下交易实施办法构建低成本的实时海量交易通道,解决了主节点与工人间的信任问题和交易效率问题。最后,通过多维度对比仿真实验,验证了提出的众包激励机制及其实施办法的有效性。

    一种结合遗传算法和聚类的软件定义网络控制器优化部署机制
    王冰彬, 唐震洲
    2024, 46(11): 1971-1978. doi:
    摘要 ( 44 )   PDF (1426KB) ( 81 )     
    对于逻辑上集中式和物理上分布式的多控制器软件定义网络SDN,控制器的放置直接影响网络的性能,包括时延、负载均衡等。因此,控制器放置问题MCP是软件定义网络中的一个非常重要的问题。基于上述分析,提出了一种融合遗传算法和k-medoid聚类算法的启发式SDN MCP机制,称为GA-K-Medoids MCP机制,旨在最小化控制器与交换机之间以及不同控制器之间的传播时延,采用Internet2 OS3E 和 Palmetto 2种常见的网络拓扑对所提出的MCP机制进行了性能评估,并与其他机制进行了对比。仿真结果表明,GA-K-Medoids MCP能够为多控制器软件定义网络提供有效的低延迟的控制器部署方案。
    时间敏感网络中基于边不相交路径对选择的帧复制与消除机制
    胡绍柳, 蔡岳平
    2024, 46(11): 1979-1988. doi:
    摘要 ( 33 )   PDF (921KB) ( 92 )     
    工业互联网应用如工业自动化控制系统,对网络提出了更严格的性能要求,包括有界低时延、低抖动与高可靠。传统以太网尽力而为的转发技术难以满足工业互联网确定性的传输需求。IEEE 802.1工作组在标准化的时间敏感网络增强了以太网的时间同步、确定流调度以及可靠性等功能。帧复制与消除机制FRER通过在2条源节点与目的节点相同且不相交路径上并行传输相同的帧,并在目的节点消除重复帧,提高了时间敏感网络的可靠性。该机制存在以下2个问题:(1)路径选择未考虑路径自身可靠性;(2)完全不相交的路径对可能不存在。通过构建路径可靠性模型,提出基于边不相交路径对计算方法,解决了上述问题。仿真结果表明:提出的机制有效提高了路径可靠性的同时降低了帧的时延抖动;当网络负载为0.9时,提出的机制与传统FRER及FRER-MPC相比,时延抖动分别降低了15.6%和11.19%。

    基于QoS-QoE预测的传输瓶颈定位
    马心宇, 李彤, 曹景堃, 吴波, 孙永谦, 赵乙
    2024, 46(11): 1989-1996. doi:
    摘要 ( 41 )   PDF (937KB) ( 73 )     
    在实时音视频传输中,QoS指标反映服务端可感知的网络情况,QoE指标直接体现用户侧对视频业务的满意程度,尽管QoE指标是服务提供商更为关注的指标,但是由于接口适配和用户隐私保护等问题,云服务提供商往往不能实时获得QoE数据,因此无法及时对可能发生的QoE异常进行预测并采取优化措施。由于QoS-QoE存在一定映射关系,提出一种基于服务端的QoS指标实现对QoE指标进行瓶颈检测的模型,可以减少运维人员定位的工作量,提高网络优化效率。模型使用不平衡决策树进行QoS-QoE预测,实现QoE异常检测。使用LSTM回归模型进行因果分析,实现瓶颈定位。实验表明该模型对QoE异常检测有较高准确率,并且可以发掘传输过程中对传输结果影响较大的QoS指标。

    参与式感知设备多维数据的个性化差分隐私保护方案
    王天阳, 李晓会, 陈洪洋
    2024, 46(11): 1997-2006. doi:
    摘要 ( 33 )   PDF (932KB) ( 90 )     
    随着参与式感知PS技术的兴起,个人设备参与数据采集的规模和多样性不断增加,涌现了大量的多维数值型敏感数据,使隐私泄露风险变得更加严峻。为了解决这一问题,提出了一种参与式感知设备多维数值型数据的个性化差分隐私保护方案。该方案通过设计在一定范围内的个性化隐私预算分配方案,并优化DPM机制的采样维数,实现了最小化平均方差。在此基础上,设计了一种个性化的多维分段机制PDPM,提高了数据的可用性并使扰动后的均方误差更小。最后,在2个真实数据集上进行了实验,验证了所提方案在保护用户隐私的同时,显著降低了数值型数据的均方误差。因此,所提的方案在隐私保护和数据可用性之间提供了更好的平衡。

    图形与图像
    基于Gamma分布贝叶斯RCS估计的多目标跟踪算法
    李波, 王健, 李佳瑜, 卢哲俊
    2024, 46(11): 2007-2016. doi:
    摘要 ( 34 )   PDF (2439KB) ( 85 )     
    针对密集目标场景下的多目标跟踪算法易出现航迹混批的问题,考虑引入RCS信息辅助跟踪,提出了一种基于Gamma分布的贝叶斯RCS估计的多目标跟踪算法。首先,提出目标RCS状态及量测滤波过程,使用非平稳自回归Gamma过程对状态动力学进行建模,在时间更新中实现贝叶斯RCS估计。然后,在PHD滤波器中引入贝叶斯RCS估计,提出了PHDwRCS滤波器,实现对密集目标的跟踪。针对PHD类滤波器无法实时形成航迹、跟踪精度较低的问题,在TPHD滤波器中引入RCS估计,提出了TPHDwRCS滤波器,实现了对密集目标的有效航迹跟踪。通过计算机仿真实验表明,所提算法能够有效实现贝叶斯RCS估计,引入RCS信息后的PHDwRCS滤波器和TPHDwRCS滤波器能够实现对密集目标的精确跟踪,基于GOSPA度量的定量误差性能得到提升,一定程度上缓解了航迹混批问题。

    基于轻量化目标检测网络的RGB-D视觉SLAM系统
    戴康佳, 徐慧英, 朱信忠, 黄晓, 李琛, 刘巍, 曹雨淇, 王拔龙, 刘子洋, 陈国强
    2024, 46(11): 2017-2026. doi:
    摘要 ( 42 )   PDF (2269KB) ( 86 )     
    RGB-D SLAM是一种利用深度相机实现同时定位和地图构建的技术。传统的视觉SLAM系统基于对静态环境的假设,然而实际环境中往往存在动态物体,这可能导致SLAM系统的位姿估计出现显著的偏差。针对这一问题,提出了基于轻量化的YOLOv8s目标检测的RGB-D视觉SLAM系统,采用Socket通信方式,将目标检测结果传给SLAM,然后利用Depth Value-RANSAC几何算法剔除检测框内的动态特征点,提高了SLAM系统在动态环境中的定位精度。实验使用TUM数据集进行验证,结果表明,本文系统精度相比ORB-SLAM2有明显提高。与其他SLAM系统相比,本文系统在精度和实时性上有不同程度的改进。

    基于可学习图像滤波器的雾天驾驶场景图像语义分割
    徐欣, 李若诗, 袁野, 刘娜
    2024, 46(11): 2027-2034. doi:
    摘要 ( 41 )   PDF (1219KB) ( 94 )     
    尽管基于深度学习的图像语义分割方法在传统的驾驶数据集上取得了很好的效果,但针对雾天条件下的低质量图像的语义分割仍然具有挑战性。针对此问题,提出了可学习图像滤波器LIF模块,旨在利用不同雾浓度下驾驶场景图像的内在特征,改进雾天驾驶条件下的图像语义分割。LIF模块由超参数预测模块HPM和图像滤波模块IFM组成,IFM中滤波器的超参数由HPM预测得到。以端到端的方式联合学习HPM和语义分割网络,确保了HPM可以学习适当的IFM参数,以弱监督的方式增强图像以进行分割。分别以DeepLabV3+、PSPNet和RefineNet作为基线模型,并在Cityscapes和Foggy Cityscapes的混合数据集上进行实验,基线模型加可学习的图像滤波器模块的MIoU分别为63.14%,60.45%和61.41%,相比基线模型的MIoU分别提升了3.03%,1.52%和1.69%,实验结果表明了该模型的有效性与通用性。

    基于MCL的多速率点云动作识别
    李涛, 王松, 谢甜, 马亚彤
    2024, 46(11): 2035-2044. doi:
    摘要 ( 27 )   PDF (1277KB) ( 66 )     
    针对体素数据会占用大量的内存空间且单网络可提取的动作信息有限的问题,提出了基于MCL的多速率点云动作识别模型。首先,优化了点云数据预处理方法,使点云数据的总体大小减少1/2;其次,提出了基于MCL的多速率点云动作识别模型,以MCL框架为主体结构,引入置信度损失函数和广义蒸馏,通过置信度损失来确定知识蒸馏时的“教师”及“学生”网络;对“教师”网络进行广义蒸馏,对“学生”网络进行指导,实现了不同速率网络之间的信息融合。对该模型在公开的MMActvity数据集和Pantomime数据集上的性能表现进行了评估,分别得到91.3%和95.2%的准确率,实验结果验证了该模型的有效性。

    基于CNN和Transformer特征融合的烟雾识别方法
    付燕, 杨旭, 叶鸥
    2024, 46(11): 2045-2052. doi:
    摘要 ( 60 )   PDF (1471KB) ( 115 )     
    当前许多烟雾识别方法存在虚警率较高的问题,部分原因是当前大部分卷积神经网络(CNN)在特征提取过程中主要关注烟雾图像的局部信息,而忽略了烟雾图像的全局特征。这种偏重于局部信息的处理方式在处理多变且复杂的烟雾图像时,容易导致误判的情况发生。为了解决这一问题,需要更加准确地捕捉烟雾图像的全局特征,从而改善烟雾识别方法的准确性。因此,提出了一种结合Inception和Transformer结构的双分支烟雾识别方法TCF-Net。该方法改进了Inception模型,既丰富了特征种类,又减少了通道数的冗余;其次,引入了Transformer中的自注意力机制,将自注意力机制学习全局上下文信息的能力与卷积神经网络学习局部相对位置信息的能力相结合,在特征提取过程中嵌入了特征耦合模块FCU,连续地对双分支中的局部特征和全局信息进行交互,以最大程度保留双分支中的局部信息和全局信息,提高本文方法的性能。该方法能够对视频帧进行分类,将其识别为3种状态:黑色烟雾、白色烟雾和无烟雾。实验结果显示,改进后的烟雾识别方法可以更好地提取烟雾的特征,在降低虚警率的同时将准确率提升至97.8%,证实了该方法具有较好的性能。

    人工智能与数据挖掘
    基于D2GA的逆强化学习算法
    段成龙, 袁杰, 常乾坤, 张宁宁
    2024, 46(11): 2053-2062. doi:
    摘要 ( 38 )   PDF (1976KB) ( 79 )     
    针对传统生成对抗逆强化学习存在的专家样本获取困难以及生成样本利用率低的问题,提出一种基于事后经验回放策略HER的双鉴别器生成对抗D2GA逆强化学习算法。在该算法中,HER自动合成类专家的正样本,通过D2GA与强化学习方法柔性动作-评价SAC生成的负样本进行对抗性训练,基于所求解的最优奖励函数,利用SAC求解最优策略。将所提出的D2GA算法与经典的逆强化学习算法在Fetch机械臂环境中的4种任务进行了比较实验。结果表明:在没有可用演示数据的情况下,D2GA在相对少的回合数内完成任务的成功率可以达到理想性能,优于当前流行的逆强化学习算法。

    基于匮乏理论的应急物资调度模型构建及算法研究
    彭频, 王欣悦
    2024, 46(11): 2063-2070. doi:
    摘要 ( 26 )   PDF (752KB) ( 83 )     
    针对突发自然灾害后的应急物资调度问题,考虑灾民心理痛苦感知和灾后道路状况,引用匮乏理论建立灾民痛苦函数,以最小化灾民心理痛苦成本和应急物资运输成本为目标,构建突发自然灾害背景下的多目标应急物资调度模型,并通过快速非支配排序遗传算法对模型进行求解。最后,以汶川地震某区域为案例进行实例验证分析,验证了模型和算法的有效性。

    双级交互式自适应融合的多模态神经机器翻译
    杜连成, 郭军军, 叶俊杰, 余正涛,
    2024, 46(11): 2071-2080. doi:
    摘要 ( 38 )   PDF (1612KB) ( 89 )     
    多模态神经机器翻译的目标是通过引入其他模态信息来提升纯文本神经机器翻译的质量。图像中包含了实体对象的关系、属性以及空间位置关系等多种语义信息。然而,目前存在的大多数融合方法仅考虑图像的部分视觉信息,忽略了对视觉模态内部关系的探索,导致视觉信息的利用率较低,无法充分利用图像所包含的全部语义信息。因此,提出了一种双级交互式自适应融合的多模态神经机器翻译方法,该方法考虑了图像不同方面的属性特征,以充分利用图像的视觉信息。实验结果显示,该方法能够有效地利用图像所具有的视觉信息,并且在Multi30K数据集的英语→德语(EN→DE)和英语→法语(EN→FR)2种翻译任务的测试上的效果显著优于当前大多数的效果最优(SOTA)多模态神经机器翻译方法的结果,十分具有竞争力。

    融合模体感知和图Transformer编码的社区检测
    郭兴君, 李晓红, 史婉媱, 高文超
    2024, 46(11): 2081-2090. doi:
    摘要 ( 48 )   PDF (1674KB) ( 91 )     
    针对已有社区检测方法存在忽略高阶结构信息,且在信息引入过程中极易产生碎片的问题,提出了一种融合模体感知和图Transformer编码的社区检测方法。首先,将原图中的极大完全子图视为模体,并以模体为顶点对原图进行重构,捕获模体邻接矩阵。同时,使用混阶外切边编码获取原图的残留边信息,解决碎片问题,利用位置编码和内权边编码捕获重构图上的位置信息和边信息。其次,使用图Transformer提取原图携带的初始特征,再对编码所得的位置信息和边信息及初始特征进行融合,获得模体嵌入矩阵,实现社区检测。最后,在几个不同数据集上的实验结果表明,所提方法可以有效提高社区检测的性能,而且,对重叠社区检测和多社区公共顶点检测也是有效的。